【摘 要】
:
软件缺陷预测技术通过对软件历史数据进行分析,利用分类、排序等模型,识别潜在有缺陷的软件模块。软件缺陷预测模型构建过程中,有缺陷样本数远小于无缺陷样本数,且分布不均匀,存在严重的类间不平衡和类内不平衡问题,这两种情况都会对构建预测模型产生负面影响。为了减少数据不平衡对预测模型的影响,在软件缺陷预测模型构建的四个阶段都存在相应的方法对数据不平衡进行修正,包括数据采样、特征提取、分类器优化以及评价标准。
论文部分内容阅读
软件缺陷预测技术通过对软件历史数据进行分析,利用分类、排序等模型,识别潜在有缺陷的软件模块。软件缺陷预测模型构建过程中,有缺陷样本数远小于无缺陷样本数,且分布不均匀,存在严重的类间不平衡和类内不平衡问题,这两种情况都会对构建预测模型产生负面影响。为了减少数据不平衡对预测模型的影响,在软件缺陷预测模型构建的四个阶段都存在相应的方法对数据不平衡进行修正,包括数据采样、特征提取、分类器优化以及评价标准。其中数据采样是缺陷预测模型构建的初始阶段,在初始阶段对数据不平衡进行修正可直接减小后续阶段执行的复杂度。处理类不平衡问题的常用数据采样方法通过调整样本的数量达到类间平衡,但分布通常遵循原有分布,类内平衡没有改善。本文针对样本分布,提出一种软件缺陷预测类不平衡数据生成方法,根据样本特征空间中分布情况进行聚类划分,对划分后的子区域依据不同分布情况采用不同策略进行有缺陷样本数据合成,通过增加数量达到有缺陷和无缺陷样本类间平衡,通过不同区域数据生成密度的不同改善有缺陷样本类内分布。为了验证本文方法的有效性,本文在9个已公开缺陷预测数据集上进行了实验,对比了本文方法与现有数据生成方法,并在不同分类算法下对本文方法进行了实验。结果表明,本文所提出的基于分布的软件缺陷预测数据生成方法通过对样本进行划分,在不同分布区域内采用不同数据生成策略,在增加有缺陷样本数量使类间平衡的同时使其类内也平衡,进而提升分类器的分类性能,减少了数据不平衡对软件缺陷预测结果的影响。
其他文献
以负压抽滤和化学共沉淀法,在阳极氧化铝(AAO)纳米阵列孔模板中,可控制备了铈基稀土氧化物纳米结构材料,其形貌、组成、结构,分别用SEM和TEM,XRD,EDS等表征。分别研究了荧光性能,比较了不同纳米结构对刚果红的吸附去除速率及钐、铕掺杂的荧光发射峰特征,研究了制备工艺及掺杂元素相对浓度与荧光性能的关联性。主要研究结果如下:1、在AAO模板中合成了形貌均一的CeYxOy纳米线和纳米管阵列结构材料
抠像技术起源于照片处理和电影拍摄的需求,如何从数字视频或静态数字图像中抠取出前景对象是近几十年来图像与视频编辑领域的重点研究课题。而精确的将场景中的前景对象提取
二维sp2碳材料石墨烯具有特殊的结构和电子性质,有望应用到下一代的电子器件、能源存储设备、自旋电子学器件等方面而得到了广泛的关注。而在石墨烯的表面上吸附原子,比如氢原子,可能会完全改变石墨烯的电子性质。氢原子会破坏了石墨烯费米能级处的线性色散关系并打开带隙。氢化提供了一种崭新的方法用于调控石墨烯性质,具有广泛的使用前景。从石墨烯到部分氢化石墨烯和到全氢化的石墨烯,石墨烯由原本的非磁导体演变为铁磁半
伴随着经济的快速发展,人类对能源的需求越来越大,加快开发和利用新型能源的步伐、提高已开发和投入使用的能源的利用效率,已成为当代研究的重要课题。在我国,建筑能耗是所有能耗类型中最大的一项,而采暖能耗在建筑能耗中占据极大的比例。因此,合理利用建筑储热材料、提高储热材料的性能,是降低建筑能耗、实现节能减排的重要方式。熔盐是一种易得且高效的传热储热材料,目前已在商业化太阳能热发电等方面广泛应用。同时,以相
铁电金属材料是一种同时具备金属导电性和铁电性的材料。众所周知,根据库仑定律,晶体内部的静电场会被能自由移动的巡游电子所屏蔽,所以具备金属导电性的材料不可能同时具备铁电性。然而安德森和布伦特在1965年的一篇文章里提出:根据朗道相变理论,铁电相变是可以在金属性材料里出现的。在之后的半个世纪里,尽管有几种材料被认为可能具有铁电金属的特性,比如V3Si、Nb3Sn还有Cd2Re207,但最终它们都被实验
土地的合理利用直接关系到社会的可持续发展,土地数据的快速获取与精准测量是土地管理、土地规划编制及土地整治的重要前提。针对传统土地调查技术需要大量外业操作费时费力的问题,本文致力于研究一种基于无序图像的三维重建技术。主要研究内容如下:(1)提出了一种基于自适应邻域测试的图像误匹配点剔除算法。针对以往特征点匹配比率测试算法获得的匹配点不能兼顾匹配正确率与匹配数量的问题,设计迭代高阈值比率测试方法初步过
保险公司作为大型企业,通过卖出保单和投资金融市场获得盈利。同时,它们也面临着各种风险,比如赔付风险和市场风险。风险过大时还会导致破产。如何控制风险成为保险公司资产
随着移动互联网和移动设备的普及,图像已经成为人们日常生活中最主要的信息交互方式之一。在国防军事、工业医疗和城市建设等领域也充满了各种各样的图像数据,高质量的图像更
微型真核生物指单细胞真核生物,其种类繁多,大小、形态、功能各异。微型真核生物在生态系统中作为初级生产者、消费者、分解者,同时作为连接微食物环与传统食物链的重要组成
在生物数学领域中,Lotka-Volterra模型是一个经典的数学模型。它有近百年的历史,至今仍有很大的活力,引起众多学者对其关注、研究。经典的Lotka-Volterra模型学者们己经研究得比较透彻。但是带有收获项的Lotka-Volterra模型,在现有的文献中研究的并不多,一般仅研究带有常数收获项的情形。研究带有扩散项的Lotka-Volterra模型更是寥寥无几。本文主要通过微分方程定性理