基于主动学习的软件缺陷预测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件技术的迅速发展,软件产品的使用渗透到社会的各个方面。因此,软件质量保障对于大型软件项目尤为重要,如果无法及时发现并修复软件中的缺陷,不仅可能会造成巨大的经济损失,甚至会危及人类生命安全。软件缺陷预测技术通过预测软件模块的缺陷倾向性指导质量保障人员合理分配资源,即质量保障人员可以对缺陷倾向较高的模块进行充分测试,从而减少由于对无缺陷模块的测试造成的资源浪费。然而,缺陷预测模型的构造需要大量质量可靠的训练数据集,如果一个软件项目缺乏有效的训练数据,则很难建立高效的缺陷预测模型。针对缺乏有效训练数据的问题,近年来研究人员提出利用主动学习算法从被测项目中直接选择实例进行标注的方法构建训练集。已有的方法大多基于主动学习的不确定性采样策略选择实例,但是当初始训练集与总体数据分布不一致时,该方法容易导致训练集的分布偏差进一步加强,如果选择标注的实例数不够多,则难以在该训练集上构建正确的预测模型。并且缺陷预测数据集中存在类不平衡问题,在挑选实例的过程中,主动学习方法并未处理由该问题导致的构造训练集中数据分布不均衡的现象,进而导致在该训练集上构建的缺陷预测模型的性能难以得到有效提高。本文提出DAL方法和BDAL方法分别解决上述问题。DAL方法基于双重不确定性采样策略从不同特征子空间中综合评价实例的不确定性,避免在总特征空间中因绝对的单一不确定性造成的采样偏差;BDAL方法则通过合成少数类实例缓解训练集中的类不平衡问题。本文主要贡献总结如下:1.提出了一种基于主动学习的项目内缺陷预测方法DAL。为了解决软件缺陷预测领域中缺乏有效训练数据的问题,本文提出了基于主动学习双重不确定性采样策略的DAL方法,该方法旨在花费最少的标记成本构造较高质量的训练集。本文分别介绍了提出DAL方法的动机和该方法在缺陷预测领域的应用流程,然后通过在AEEEM和Relink数据集上的实证研究验证该方法的有效性,最后总结并分析其优缺点。2.对DAL方法进一步改善提出了BDAL方法。针对缺陷预测数据集中存在的类不平衡问题,本文对DAL方法进一步改善提出了基于FS-BSMOTE过采样策略的BDAL方法。该方法利用特征子集合成少数类实例以缓解训练集中类不平衡问题,可以有效提高缺陷模块的召回率。本文通过在AEEEM数据集上的实证研究验证了BDAL方法对DAL方法的改进性能。
其他文献
目的对新医改政策实施后,山东省基层卫生发展问题进行识别,并对问题产生的作用机制进行系统分析,为改善山东省基层卫生建设、促进其发展提供相关参考依据。方法借助系统动力
用盆栽试验和田间试验相结合的方法研究了施用 KCl、K2 SO4 及 KCl+K2 SO4 对黄瓜、番茄、甜椒、线辣椒 4种作物生长发育、产量、品质及养分吸收量的影响。结果表明 ,施 KCl
德国是世界出版大国,1949年,德国书业协会创办了法兰克福书展,随后每年10月举办该书展,主要目的是推进世界图书版权贸易。德国的版权产业历史悠久,发展先进,在世界版权市场中
目的制备消旋卡多曲于混悬液。方法考察常用的羟丙基甲基纤维素(HPMC)、羧甲基纤维素钠、聚维酮、黄原胶、甲基纤维素等辅料对干混悬液的影响。通过对其沉降体积比、再分散性指
肺孢子菌是一种可以导致机会性感染的真菌,可导致免疫功能抑制患者发生肺孢子菌肺炎(pneumocystic pneumonia,PCP),最常见于人免疫缺陷病毒(human immunodeficiency virus,HI
<正>近年来,因种种原因,农村教师队伍流失的现象不断出现,长此以往,势必影响农村教育事业的发展。那么,怎样改善农村教育环境,确保农村教师队伍的稳定,打造一支稳定的、高素
建立了静止标量磁强计对运动舰船定位的模型,并给出了用遗传算法求全局较优解、然后用单纯形法进行精确局部搜索的求解参数的方法.仿真实验表明这种方法有效、可行.
目的分析研究头孢哌酮钠舒巴坦钠的临床应用效果及不良反应。方法选取本院2018年01月~2019年01月期间收治的200例患者开展研究,应用数字表法对患者进行分组,分别是参照组和研
目的通过对我国中西部地区居民的灾难性卫生支出发生情况进行科学测算,锁定容易发生灾难性卫生支出的脆弱群体,对我国卫生筹资系统安排与医保制度设计进行深层次的分析,最终
为研究支撑框架结构中与梁柱连接的支撑节点板受压稳定性和影响因素,并给出节点板稳定验算的合理方法,对不同规格的节点板进行特征值分析和全过程双重非线性分析.通过按特征