基于实例合成的继承冗余代码异味检测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：kldxn

【摘要】

：

【作者】

：

陈昊

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2021年01期

【关键词】

：

代码异味继承冗余 AdaBoost

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在软件的整个生命周期过程中,为了满足用户不断变化的产品需求,开发人员经常经常在时间压力下进行软件升级与维护,从而导致代码异味的产生。通常,这些异味会对软件造成极大的隐患,引起了学术界和工业界的高度关注。继承冗余是危害最严重的代码异味之一,并且在代码中出现的频率较高。然而,此种异味却很少被研究,主要因为存在两个挑战:（1）数据集的缺失（2）继承冗余代码异味的检测规则较难设计。针对上述问题,本文提出了一个框架能够有效地生成继承冗余代码异味数据实例,并且可以有效地检测异味。具体内容包括:（1）针对数据集缺失的问题,提出了一种继承冗余代码异味实例合成的算法,算法通过将输入的高质量源代码根据异味特性进行改造,从而构建出存在异味的代码片段。算法首先将源代码转化成抽象语法树（AST）,然后通过操作语法树上的节点,创建出源码中并不存在的继承关系,从而得到具有继承冗余异味的实例数据。（2）针对继承冗余代码异味检测规则难以设计的问题,本文提出了一种基于AdaBoost的检测模型。模型首先通过现有工具计算代码度量,将其作为数据的属性特征,然后根据生成的异味数据集来训练检测模型,并将训练好的模型在真实数据集下进行异味的识别,最后根据得到的模型可以得到对继承冗余代码异味检测最重要的度量集合。为了评估该算法的有效性,针对异味实例合成算法,本文采用的数据集来源于四个高质量版本的开源项目。通过人工校验算法生成的实例表明,该算法可以有效地生成异味数据集,有效地解决数据集缺失的问题。针对异味检测模型,本文采用的AdaBoost模型各项指标均优于其他两个最常用的机器学习模型,并且通过在人工标注的真实数据集上进行验证也表明,本文提出的模型的检测效果也显著优于已有的检测工具。

其他文献

基于多模态融合的幽默识别研究

幽默是人类交流中一种独特的表达方式,它能够创造轻松愉快的氛围,促进人与人之间的沟通。幽默饱含智慧与创造力,研究幽默的产生机理,使用计算机对幽默建模,识别和生成幽默有助于计算机模拟人类的认知,对人工智能的发展至关重要。近年来已有许多基于文本的幽默识别研究,但是随着社交媒体的发展,幽默识别的对象不再局限于文本,音频、视频等多模态信息中也包含着丰富的幽默。多模态幽默识别成为该领域新兴的研究课题,它需要挖

学位

幽默识别多模态注意力机制多任务学习

基于分子间关联关系的生物数据降维算法研究

高维、复杂的生物数据中潜藏着大量与生命健康密切相关的信息,生物数据往往具有样本量小、维数高的特点,因此如何对其进行有效降维并提取重要信息,对疾病诊断、药物研发、个性化医疗等具有重要意义。由于生物体自身的复杂性导致分子间存在错综复杂的交互作用,对此,本文分别从特征选择与特征提取两个角度出发,利用分子间的关联关系从复杂的生物数据中提取出具有重要意义的信息,具体研究内容如下:1.提出了基于协同作用网络的

学位

特征选择变分自编码器分子间关联关系特征提取

带有冲突图的背包问题的精确算法的研究

背包问题是组合优化问题中的经典问题之一,该问题经常出现在资源分配中,决策者必须在规定的时间或者预算下,在一组不可分割的物品或者任务中进行选择。背包问题已经被研究了一个多世纪,最早的文献作品可以追溯到1896年。在经典的0-1背包问题中,给定一个容量固定的背包和若干物品,每个物品都有收益属性和重量属性,目标是选出若干物品放入到背包中（每个物品最多只能选择一次）,满足背包中所有物品的重量之和不超过背包

学位

0-1背包带有冲突图的背包问题分支定界算法

基于多源交通时空数据的数据补全技术研究

随着互联网技术和交通信息化的快速发展,交通数据的规模越来越大,在智能交通系统中,完整有效的交通数据对交通管理来说意义重大。但是实际中采集交通数据时,由于一些不可避免的事件的发生（如设备损坏、恶劣天气等）,会导致数据采集中断,造成部分数据的缺失,这降低了数据集的有效性,制约了智能交通建设的发展。对缺失的交通数据进行有效的补全,在理论和实际层面具有重要的研究意义然而交通数据的补全具有非常大的挑战性。一

学位

交通缺失数据补全多源数据融合时空关联性深度学习

非接触式空中手写系统研究

在科技不断发展的现代化社会,人机交互技术受到人们的广泛关注,而手势识别作为新型人机交互技术更受到研究者们的青睐,本文研究的是手势识别技术中的一种:手写识别。手写识别为人们提供了一种更为方便的交流方式,但是对于视力模糊的老人和手部神经综合性疾病的患者来说,在智能手机或智能手表等小屏幕上无论是打字还是手写都是困难的,所以本文将目光转向非接触式空中手写识别的研究。现有的基于WiFi手写识别系统存在着一些

学位

WiFi信道状态信息手写识别自步学习神经网络

针对密文数据的跨用户重复数据删除方法研究

重复数据删除技术广泛用于云计算等应用程序中,以优化云服务器的存储空间。重复数据删除技术指的是,当云服务提供商收到来自不同用户上传的相同文件的不同副本时,云服务器提供商仅存储相同文件的一个副本。用户为了保护数据的隐私通常选择将数据加密后再上传至云服务提供商。然而,用户使用传统的加密算法加密数据可能导致相同的数据被加密成不同的密文数据,从而阻碍了云服务器执行重复数据删除。安全的密文数据的跨用户重复数据

学位

重复数据删除收敛加密访问控制数据隐私

针对不确定数据的安全查询方案研究

近年来,随着网络和传感器技术的快速发展,在金融、医疗和气象学等众多领域都产生了大量的数据。由于测量误差、网络传输延迟以及数据隐私性等问题的存在,在测量和收集数据的过程中一些数据无法得到准确的值,只能得到概率性的结果,这就形成了不确定数据。云计算技术为数据的存储和处理提供了便利,但其所导致的数据安全和隐私泄露问题不容忽视。考虑到数据的隐私和安全性问题,用户通常在外包数据前对其进行加密,但这使得云服务

学位

不确定数据可搜索加密云计算数据隐私

粤港澳大湾区世界级电子信息产业集群发展状况及策略研究

《粤港澳大湾区发展规划纲要》明确指出:以深圳、东莞为核心,在珠江东岸打造具有全球影响力和竞争力的电子信息等世界级先进制造业产业群。研究粤港澳大湾区电子信息产业集群发展状况及未来发展策略有助于上述目标的实现。本文采用理论与实证相结合的方法,通过查阅文献、问卷调查等方式,探究粤港澳大湾区电子信息产业的发展现状以及优劣势。

期刊

粤港澳大湾区电子信息产业集群发展策略

基于CP分解的跨模态图片生成网络压缩研究

跨模态图片生成网络可以根据文本描述直接生成相应的图片,极大地扩展了计算机视觉的应用范围,可用于跨模态检索、艺术创作、犯罪图像生成和数据集生成等领域。随着5G技术在人机交互、医疗保健、智慧城市等领域的兴起,各项人工智能技术在移动终端部署的需求也不断增长,但现有的跨模态图片生成模型架构复杂、参数量多,难以被部署在计算资源有限的移动端以发挥其应用价值。因此,本文基于Canonical Polyadic

学位

跨模态图片生成模型压缩CP分解自动编码器

基于时空域结合的视频去雨方法研究

雨是常见的恶劣天气现象,会严重降低采集到的视频图像质量,影响户外视觉系统对自然场景内容的有效提取。近年来对高质量视频的迫切需求,使视频去雨任务引起广泛的关注,并且成为当下研究的热点之一。目前针对视频去雨任务的方法大致能分为两类:基于传统物理模型驱动的算法和基于神经网络的算法。视频中所包含的信息繁多,传统模型的方法需要建立复杂的先验约束刻画该任务模型,所含参数量过于庞大。深度学习的方法虽然一定程度上

学位

视频去雨视频恢复视频增强深度展开深度学习

基于实例合成的继承冗余代码异味检测

与本文相关的学术论文