基于数据增强的即时软件缺陷预测研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:cxxxcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件质量保证活动是软件开发过程中的重要环节。为了在保证软件质量的同时最小化测试成本,软件缺陷预测技术成为了软件工程领域的研究热点。基于被测软件实体大小的不同,缺陷预测技术主要分为粗粒度缺陷预测(文件、模块或者包)和细粒度缺陷预测(变更)。变更级缺陷预测是在开发者提交代码时,预测本次提交的代码变化是否存在缺陷的技术,又称为即时(Just-In-Time)缺陷预测。相比于粗粒度缺陷预测,即时缺陷预测技术有着可追溯和即时性的优势并因此吸引了大量研究者的注意。即时缺陷预测本质上是一个分类问题,数据集质量影响着该技术的性能。然而,即时缺陷预测数据集有相关问题有待于解决:(1)特征表示问题。即时缺陷预测存在高度的特征差异性问题,这会导致与缺陷识别不相关的特征被放大,而与缺陷识别相关的特征被弱化或者丢失;同时,目前常用的变更特征的区分性并不明显。因此,需要找到一些新的、合理的特征来提升即时软件缺陷预测模型的性能。(2)噪音数据的处理。即时缺陷预测研究中的标注数据是存在噪音的。处理训练数据中的噪音,减小噪音数据对即时缺陷预测模型的影响,将进一步提升即时缺陷预测技术的有效性和实用性。为了解决以上的问题,本文从特征学习和噪音数据处理两个角度对即时缺陷预测数据进行数据增强来提升数据集质量,主要完成了以下工作:(1)为了解决特征表示问题,本文提出了一种自动特征学习方法(AFLM),该方法基于强化学习。在训练阶段,首先训练智能体在训练集上学习有效的策略,该策略可以为每个特征找到合适的特征转换方式。接着,智能体根据优化的特征转换策略顺序优化数据集中的每个特征并基于转换后的数据建立分类模型。在测试阶段,建立的分类模型可以预测特征转换后测试实例的缺陷概率。特征转换后,不同类别的实例有较大的差异,使得分类模型更容易识别缺陷实例。(2)为了解决噪音数据处理问题,本文提出了不平衡置信学习(Confident Learning Imbalance)模型。该模型通过估计噪声标签和真实标签的联合分布发现噪声数据,接着清除噪声数据,然后基于产生的干净数据建立分类模型以提升分类性能。实验结果表明,CLI模型可以有效提升训练数据质量并提高即时缺陷预测模型的分类性能。
其他文献
镁合金因具有较高、稳定且与骨骼接近的力学性能、可降解性以及生物相容性,而被视作21世纪具有很大发展潜力的可降解生物材料。然而镁合金对腐蚀的高度敏感性即低耐蚀性,导致了其在含氯离子(Cl-)的生理环境中快速降解,继而使植入材料的力学性能衰减率高,从而限制了其在临床应用上的运用。因此,本文旨在满足镁合金在生理环境中的耐腐蚀性能与力学性能相匹配的研究和开发需求,以Mg-2.0Zn-1.0Y-0.5Zr合
学位
水利是农业生产和生活的基本保证,四水同治既与农业发展密切相关,又会对其它行业的用水产生影响。2021年中央一号文件提出,要加强农村饮水安全工程建设,加强中小水库的保护,加强小型水利设施的规范化管理;“十四五”规划提出,要增强水资源的合理配置、加强水灾害防御能力,提高对水源涵养地区的保护与整治,着重对重点河流的生态保护工作。内乡县虽然已经在探索实施四水同治项目,但仍待深入研究。因此,本文选定内乡县为
学位
船舶一般长时间航行于海上,通常远离陆地,如果船上的电子设备发生故障,船员维修非常困难。特别是对于自动操舵仪来说,若发生故障而不能及时修复,将严重影响船舶航行。本论文针对这一情况,设计了一款自动操舵仪故障诊断系统,普通船员操作使用该系统就能实现自动操舵仪的维修。本论文针对自动操舵仪系统特点,区分了系统线路的故障诊断和电路板的故障诊断。自动操舵仪的电路板不多,而且每块电路板都有备用板,船上一般很少需要
学位
随着互联网的普及和社交网络的兴起,中学生使用网络越来越普遍,问题性网络使用行为也越发严重。问题性网络使用是指过度使用网络而引起的一种着迷和依赖状态,对中学生学习、生活及身心健康的发展都有负面影响。网络世界的虚拟感影响着人们的交往价值观念和行为方式,导致个体产生人际困扰,又进一步导致更严重的问题性网络使用行为,产生恶性循环。基本心理需要与自我和谐是中学生心理健康发展的重要影响因素,反刍思维是学生认知
学位
随着时代的发展,人们利用科学技术对疾病的认识在不断深入,同时也使人类的寿命较17、18世纪有了延伸。目前,癌症是全世界公认的致死率最高的疾病,其中肺癌是全世界癌症死亡的主要原因。肺结节是指肺部计算机断层扫描(CT)显示为类圆形阴影的一系列肺部异常,肺结节的准确生长率是肺癌诊断的重要指标。因此,获得肺结节面积或体积信息成为肺结节准确生长率的必备前提。利用三维计算机辅助诊断技术帮助医师进行肺结节的分割
学位
长三角一体化发展正在步入“快车道”,同时也是我国整体经济高质量发展的重要推动力。文章运用PEST模型深度挖掘了长三角一体化背景,在此基础上指出了长三角一体化发展所引起的相关效应和问题,并以新发展理念作为切入视角,提出了具有实际意义的建议,以供参考。
期刊
春玉米秸秆还田是寒旱区保护性耕作的核心技术,同时也是改善土壤结构,增加土壤肥力的重要措施。团聚体是表征土壤结构的重要指标,土壤碳库管理指数是反映土壤肥力的重要指标,研究秸秆还田方式对土壤团聚体及碳库管理指数的影响,能够为优化冀西北寒旱区秸秆还田方式提供科学依据。本文采用秸秆还田翻耕(JF)、秸秆还田旋耕(JX)、大垄轮播秸秆还田(JL)3种还田方式,以秸秆不还田为对照(CK),通过分析三种还田方式
学位
视觉工作记忆与选择性注意一直是认知心理学中的重要研究领域,尽管已有研究分别为视觉工作记忆编码阶段存在基于客体的注意选择模式和维持阶段存在基于特征的注意选择模式提供了证据支持。但是这些证据来自不同的研究,它们之间的研究范式、客体特征维度以及反应指标都存在差异,因此我们必须谨慎地得出视觉工作记忆不同加工阶段存在不同注意选择模式的结论。本研究采用变化觉察范式,将“任务无关特征变化干扰效应”作为观测指标,
学位
学位
草地贪夜蛾Spodoptera frugiperda(Smith)隶属于鳞翅目Lepidoptera夜蛾科Noctuidae,是原产于美洲的重大迁飞性农业害虫,2019年在我国云南首次发现该虫危害新鲜幼嫩的玉米叶片,并由南向北迅速蔓延,严重影响我国玉米的产量,对我国的粮食生产安全造成长期性威胁。目前,化学防治仍是草地贪夜蛾的主要防治方法,而新型纳米农药具有生物活性强、利用率高、持效期长、吸附能力强
学位