基于特征选择和实例迁移的软件缺陷预测方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:cxr1682000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件行业的快速发展,软件的规模也不断地扩大,不可避免的会产生许多软件缺陷。而软件缺陷的存在会对人们的生产和生活带来巨大的损失,因此人们开始意识到软件质量的重要性。如果可以在软件发布之前就找到软件中隐藏的缺陷,那么就可以合理有效的分配测试资源,集中精力进行修复,因此软件缺陷预测得到了人们的关注。软件缺陷预测是通过挖掘历史数据,如软件开发过程、软件代码等,进而构建缺陷预测模型,对新的项目模块进行预测。然而目前大部分的研究都集中在同项目缺陷预测。但是在实际的开发中,经常需要对一个全新的项目进行预测,或者项目已有的标记数据很少。在这种情况下,跨项目缺陷预测应运而生。该方法使用已有的具有丰富标记的其他项目(即源项目)数据构建缺陷预测模型,对当前项目(即目标项目)的缺陷情况进行预测。本文针对大部分模型在实际应用中存在的问题:(1)缺陷数据中有大量冗余或无关特征;(2)缺陷数据存在类不平衡现象;(3)源项目和目标项目之间数据分布差异较大,提出了两种软件缺陷预测方法。(1)基于特征选择的软件缺陷预测方法基于缺陷数据中存在冗余或无关特征的问题,本文提出一种基于特征选择的软件缺陷预测方法。该方法从源项目数据集出发,包括特征的相关性分析和冗余性分析两个阶段,去除无关和冗余特征,然后从目标项目中选出对应的特征,解决跨项目缺陷预测中的高维问题。最后通过实验验证了该方法的有效性。(2)基于实例迁移的软件缺陷预测方法基于软件缺陷数据中存在的类不平衡问题以及源项目和目标项目数据分布差异大的问题,提出了一种基于实例迁移的缺陷预测方法。该方法首先进行类不平衡学习,通过对源项目数据中的多数类(即无缺陷)样本进行多次有放回的随机下采样,得到多个类平衡的源项目训练集;然后应用TrAdaBoost技术,将多个源项目训练集分别与目标项目训练集合并,训练得到若干个子分类器;最后将多个子分类器进行集成,得到最终的分类器。在AEEEM和Relink数据集中进行实验,结果表明,该方法能够取得较好的性能。(3)最后对本文提出的两种软件缺陷预测方法进行综合对比实验。在预测结果的AUC值比较中,本文的两种方法都有更加优秀的表现。
其他文献
“一带一路”倡议的话语实践不仅事关“一带一路”建设的推进和实施,也是我国在国际社会中争夺话语权、建设软实力的重要举措。新媒体环境下,除却日常性的常规新闻报道,微视频这一多模态报道形式在“一带一路”主题报道中日益丰富和类型化,在舆论造势中起着重要作用。近几年,以人民日报、新华社、央视三大国家级主流媒体为代表的媒体制播了许多“一带一路”微视频。这些微视频进行着新形式的话语实践,创新性地对“一带一路”相
主要通过对现场出现的问题分析,来剖析现代工业清洗机的设计制造所要遵循的原则和必须解决的问题,指出适合现场的一些设计制造策略。通过合理有效的先期设计和材料选择,使得机床
中国特色社会主义进入新时代,社会主义市场经济体系日渐完善,社会主义现代化进程不断加快,社会公共事务随之增加,公民在公共生活空间的交往愈加频繁。公共精神是形成公民和公共生活之间良性互动关系的重要精神纽带。如何把对公共利益和价值的肯定,通过公民的公共意识、公共参与和对社会的公共价值理念呈现出来,这是对公民公共精神培育提出的新时代要求。大学生是引领中国未来发展的重要力量,其公共精神状况不仅关系到大学生自
近年来,随着国民经济的快速发展,人民生活水平不断提高,消费观念和消费形式都发生了很大变化。消费者不再局限物质满足,转而追求精神满足,由传统的只关注产品本身的价格和质量,到如今更加注重消费过程中除产品以外的附加价值。特别是在如今网络时代背景下,随着web2.0时代的到来,消费者与企业之间有了更多的接触机会,企业的生产经营方式和服务理念都不断在发生变化。以产品为中心的传统服务理念不再适应现代社会的发展
第一部分 DJ-1 通过 CaMKKβ/CaMKIV/CREB 通路调节酪氨酸羟化酶表达的机制研究目的:脑内酪氨酸羟化酶(tyrosine hydroxylase,TH)的表达下降是帕金森病患者的发病标志。Parkinsonism associated deglycase DJ-1)基因的缺失或突变导致早发遗传性帕金森病。本课题的研究目的是探究帕金森病相关蛋白DJ-1调控TH表达的分子机制。方法:
2017年新颁布的高中英语课程标准提出了构建英语学科核心素养,其中,培养学生的思维品质,提高学生的思辨能力再次受到了关注。信息技术高速发展的时代,能利用批判性思维对所得
皮特兰猪的繁殖性能与杂交效果观察谢世华,覃福超,韦榜文,吴永德,刘达文(西江农场贵港537104)西江农场为了提高本场商品猪的瘦肉率,1992年2月从上海农科院引进皮特兰公猪4头,母猪6头,进行纯种扩群与
在高肥稻田上进行多点试验,测定土壤肥力综合指标为251.4—379.0公斤/亩,产量对土壤肥力的依赖率与土壤肥力综合指标呈极显著的正相关,回归方程为Y=19.83+19.24 lgX,以此建立
<正> 温州蜜柑开花多、着果率低,一直是生产上存在的主要问题。特别是早熟温州蜜柑春梢与幼果期相吻合,造成梢果彼此争夺养分,导致大量落果。为了缓解梢果争夺养分的矛盾,以