基于实例选择的集成跨项目缺陷预测方法的设计与实现

来源 :南通大学 | 被引量 : 0次 | 上传用户:jasongoes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测(software defect prediction)是当前软件工程数据挖掘领域中的一个研究热点,软件缺陷预测首先挖掘软件历史仓库(software historical repositories),从中抽取程序模块并进行类型标记。随后通过分析软件代码或开发过程,设计出与软件缺陷存在相关性的度量元(metrics),并借助这些度量元对程序模块进行软件度量。在实际的软件开发过程中,需要进行缺陷预测的项目(即目标项目)可能是一个全新项目,或这个项目已有的训练数据较少。因此,如何有效地迁移源项目知识来为目标项目构造缺陷预测模型的问题称为跨项目缺陷预测(cross-project defect prediction,简称CPDP)问题。论文重点针对同构跨项目缺陷预测问题,该问题假设源项目与目标项目采用相同的度量元。基于上述假设,论文提出一种新的基于Box-Cox转换的集成跨项目软件缺陷预测方法BCEL方法(a Box-Cox transformation based Ensemble Learning approach),该方法主要包括四个阶段:第一个阶段通过使用不同的距离计算公式(包括欧式距离、余弦相似度、相关系数)进行实例选择,从候选集中获取不同的训练集;第二个阶段采用Box-Cox对这些数据集进行度量元取值转换;第三个阶段借助特定的分类方法(如Logistic回归)构造不同的基分类器并分析对应预测模型的预测结果是否具有多样性;第四个阶段如果预测结果具有多样性,则借助集成学习进一步提高模型的预测性能。在实证研究中,论文主要采用AEEEM数据集,评估模型性能采用的指标是F-measure。选择了三种基于不同距离计算的基准方法,其中基准方法ED是仅基于欧氏距离的实例选择方法;基准方法CS是仅基于余弦相似度的实例选择方法;基准方法CC是仅基于相关系数的实例选择方法。实证研究结果表明,BCEL方法可以让跨项目缺陷预测取得更好的预测性能。在跨项目缺陷预测上,BCEL方法相对于ED方法提升了35.9%,相对于CS方法提升了20.5%,相对于CC方法提升了24%。除此之外,基于实例选择的集成跨项目缺陷预测框架,实现了一个原型工具可以有效支撑上述方法。
其他文献
磷烯自从2014年被发现以来,由于其具有直接带隙、较高载流子迁移率、具有很好的开关比等性质,可以制作良好的场效应晶体管,并且促进了自旋电子学的发展。为了更好地实现其在自旋电子器件中的应用,本文以磷烯纳米带作为研究对象,并采用非平衡格林函数与紧束缚模型相结合的研究方法,研究了磷烯纳米带的自旋输运性质。首先在第一章介绍了磷烯的背景,包括磷烯的发现、制备、性质和研究现状,然后我们就简单介绍了自旋电子学的
随着经济全球化的纵深发展和我国“走出去”战略的不断推进,中国对德国直接投资在近几年迅速发展,投资金额与数量呈显著上升趋势。然而,据德国欧亚咨询公司近五年的统计数据
中国特色社会主义新时期,在我国城镇化、现代化发展取得显著成效的同时,也产生了城乡差距较大、农村发展不充分、农业现代化发展滞后等一系列问题。中国作为农业大国,“三农”问题事关国计民生,为了从根本上解决这一问题,实现全面小康和共同富裕,党的十九大上创造性地提出了实施乡村振兴战略。其中,产业发展是实现乡村振兴的重要基础和农村发展的根本动力,民族地区农村是乡村振兴的重点区域。但这些地方由于资源禀赋不足、交
路线方案的选择是公路建设的宏观决策,方案的选择是否科学合理,直接影响到工程建设成本和施工难度。公路竖曲线是影响行车安全,舒适及工程造价的主要因素。因此,在公路建设初期,应对各备选公路竖曲线方案的安全性、线形、工程及运行等各方面进行评价,并选择总体效果最优的可行方案加以实施。本文从公路竖曲线方案评价的目的着手,在系统分析了公路竖曲线方案的主要影响因素的基础上,建立了公路竖曲线方案综合评价的内容,提出
多目标优化问题广泛存在于科学和工程领域,不同于单目标问题,多目标优化问题的解是由一些代表各个目标之间平衡优化的解组成.传统优化方法由于每次只能求得一个解等而具有局
行人检测技术,作为计算机视觉中目标检测的重要分支,在智能辅助驾驶,安防监控,服务机器人等领域有着广泛地应用。近年来,随着深度学习在计算机视觉领域的崛起,行人检测技术进入了一个快速地发展时期,出现了许多基于深度卷积神经网络的行人检测算法,并不断取得突破性的成果。在当前多尺度特征图的实时行人检测算法中,针对图像中占比较大的中大尺度行人目标的检测已经取得了较好的效果。但是,小尺度行人目标由于组成像素较少
传统的k-均值聚类算法是从要聚类的样本中任意挑选指定个样本作为初始点开始聚类,初始点选取不同,聚类算法每次执行的结果可能不一样,这样会导致不稳定的结果。为了使聚类结
含铝高硼高速钢作为一种新型轧辊材料,具有良好的耐磨性、热稳定性以及经济性。高含量的硼元素显著提高了材料的淬透性,减少了贵重元素的含量,并形成大量高硬度和稳定的硼碳化物。铝的加入可以显著提高材料的红硬性和回火稳定性。普通含铝高硼高速钢在晶界处形成粗大的网状硼碳化物,严重割裂基体,铝元素的加入使基体倾向铁素体组织,材料的宏观硬度降低,不利于充分发挥优秀的耐磨性,往往需要变质处理和热处理来优化含铝高硼高
当前社会是全球化竞争时代,传统时代以资源、资本要素为导向的竞争模式发生转变,进入以技术创新为导向的竞争模式。近年来,在我国相关政策的引导下,专利密集型产业规模得以扩
回归诊断是统计研究中一个非常重要的问题。近年来,回归诊断中杠杆点的度量与影响分析的研究备受关注。本文主要针对带AR(1)误差且存在复共线性的线性模型中几个估计的杠杆度量和影响分析进行研究。具体内容如下:首先,主要给出带AR(1)误差线性模型中岭估计、主成分估计与r-k估计的影响度量矩阵,并对主成分估计与r-k估计的杠杆度量及相关性质进行探究。通过实例分析与模拟分析讨论了主成分、r-k等估计下第1个