基于半监督学习和投票决策理论的软件缺陷预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:crp123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测是一项重要的质量保证技术,它通过利用软件仓库中的历史数据和已经发现的相关缺陷信息,来预测软件模块中可能存在的缺陷。但是,大多数的缺陷预测技术,都假设有大量的历史数据已知缺陷信息;但在实际情况中,在软件开发的早期,软件项目往往缺少这样的缺陷信息。另外,当前大多数研究者在评价缺陷预测性能时,并没有考虑工作量感知的问题,这使得缺陷预测技术在实际应用中不能合理利用。对于上述两个问题,本研究提供了一种新的基于半监督学习和投票决策理论的缺陷预测技术。它采用Self-training思想,结合Boosting过程,将传统的监督学习方法随机森林(Random Forest)算法改进为一种半监督学习算法——extRF,并引入投票决策理论,将随机森林中每一棵子决策树作为投票者,采用一定的集体决策规则,来预测软件缺陷模块排序。本文的主要贡献和创新点包括:1)研究提出了基于Self-training的思想,用训练得到的初始模型预测未知缺陷信息的数据样本,然后选择可靠的数据样本加入到原数据集中,用扩充后的训练集来重新优化模型。2)研究提出了将提升算法(Boosting)引入到随机森林模型中,迭代地决定每棵子决策树的权重。3)研究提出了基于有权重的集体决策规则,将随机森林中每棵子决策树作为投票者,来对软件缺陷模块排序进行预测。本文开展了一系列对比实验,考察在不同已知缺陷信息的数据样本比例下,基于extRF的软件缺陷模块排序的性能能否持续保持良好与稳定。实验结果表明,相对于基于有监督学习的预测方法和基于无监督学习的预测方法,基于extRF的软件缺陷模块排序的性能最好;用已知缺陷信息很少的历史数据训练得到的预测模型,能够获得与用大量已知缺陷信息的历史数据训练得到的监督学习模型相当的排序性能。在所有三种集体决策规则中,CO规则与extRF结合时性能表现最好。当增加已知缺陷信息样本比例时,排序性能仅有少量的提升。
其他文献
随着科学技术的飞速发展,越发成本低廉的数码电子产品的广泛使用,主要包括具有高清摄像头的智能手机、HD摄像机等,图像、视频一类的视觉信息获取已经成为我们生活中不可分割
随着移动互联网的飞速发展,各类移动信息终端的数量及用户对速率的需求都呈现爆炸式增长,这对移动通信网络的能量效率(Energy Efficiency,EE)提出了更高的要求。当前,异构蜂窝网络(Heterogeneous Network,HetNet),多输入多输出系统(Multiple-Input and Multiple-Output,MIMO)及毫米波(Millimeter Wave,mm W
研究目的本实验采用高脂饲料喂养大鼠,建立非酒精性脂肪性肝炎模型,观察健脾疏肝方对非酒精性脂肪性肝炎大鼠一般情况、肝脏病理学形态、肝功、血脂、胰岛素抵抗及氧化应激的影响,探讨健脾疏肝方治疗非酒精性脂肪性肝炎的作用机制,为中医药临床治疗非酒精性脂肪性肝炎提供实验室依据。研究方法将40只SPF级大鼠按照随机数字表法,初步分成空白组、模型组、健脾疏肝方低剂量组、中剂量组、高剂量组、多烯磷脂酰胆碱组。除模型
传统的管理信息系统开发一般采用固化系统业务处理流程的方式,系统开发完成后业务处理流程不再允许变更。虽然这种开发方式有一定优点,但这样带来的缺点则非常突出:由于系统
互联网技术的飞速成熟和发展,带来的是多媒体数据量的爆炸式增长,这导致很多应用场景都无法通过最近邻检索来降低巨大的计算消耗。因此,近年来,近似最近邻检索越来越受到人们的关注,特别是很多基于哈希的近似最近邻检索。这些哈希方法在保持原始数据相似性的前提下,首先将原始数据映射到海明空间,然后在海明空间进行异或操作。这样可以极其有效地提高效率和降低存储空间的消耗。为充分利用类型丰富的多媒体数据,越来越多的跨
研究背景0-6岁的儿童正处于生长发育的关键时期和快速增长阶段,儿童时期的健康成长,为成年以后的健康和发展打下良好的基础;同时,儿童的生长发育水平还是一个国家经济社会发展与文明进步的重要标志,研究儿童生长发育可为提高我国民众的健康素质与水平奠定基础,提升未来的人力资源质量,降低因生长发育不良所致疾病的卫生资源消耗,提高社会资本产出的价值与效益和国民经济整体运行的质量。因此,促进儿童发展,对于全面提高
地震勘探是石油、天然气勘探重要手段,地震勘探随机噪声压制是地震勘探信号处理不可或缺的组成部分。如何从强噪声、低信噪比背景下提取微弱的有效信号一直以来都是噪声压制
近年来随着科学技术水平的不断提高,对核环境起重机的可靠性要求越来越高,但目前国内还没有深入研究潜在的故障模式、故障机制和设计过程中的可靠性指标要求对核环境起重机的
推荐算法目前在很多应用中都广泛涉及,如淘宝网站可以根据用户的购买记录和浏览记录为用户推荐商品。好的推荐系统不仅可以节省用户的浏览时间,更能及时为商家进行宣传。简单的说,对用户进行推荐就是基于用户的以往记录进行分析,从众多记录中分析出用户的潜在偏好,根据用户的特征对用户进行针对性的推荐。在推荐系统中,最重要的就是对用户的特征进行提取,得到用户特征的过程实际上也是一种推荐过程。特征提取目前在很多领域中
不管是哪个学科都需要作业来加以辅助教学,新课程改革要求小学数学教师要不断的更新自身的教育理念,重视小学数学作业对学生能力提升和知识巩固的重要作用。小学数学作业的设