不平衡数据集驱动的缺陷预测模型

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:biao_oaib
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,软件在人们的生活和工作中应用越来越普遍,软件系统的规模和复杂度也在日益增大,但能够保证软件质量的软件缺陷预测技术却发展的比较缓慢,软件缺陷预测技术在很大程度上限制了软件应用系统的发展,因而提高软件缺陷预测模型的预测精度是发展软件系统必不可少的重要一环。由于缺陷数据的不平衡性,在建立软件缺陷预测模型时,需要考虑数据集的不平衡问题,而现有的软件缺陷预测模型大多对缺陷数据没有针对性的进行处理,然而高风险模块被错分的代价要远远大于低风险模块被错分的代价。本文在建立软件缺陷预测模型时,首先针对高风险模块的样本也叫正类样本提出了一种基于边界样本过采样的不平衡数据分类算法B-oversampling,该方法是针对正类中容易被错分的边界样本进行过采样。B-oversampling方法使用两类之间的距离确定正类样本的边界样本,并重点在边界样本处使用样本的定义域合成新的正类样本,使其基本与低风险模块样本也叫负类样本的数量持平。这样不但能够增大正类样本的数目,而且能够最大限度的扩展正类的边界,提高正类样本的辨识率。然后又针对负类样本提出一种基于安全样本欠采样的不平衡数据方法,SENN-Bagging方法使用聚类一致性系数确定负类的边界样本和安全样本,在此基础上,使用SENN欠采样规则对安全样本进行欠采样,同时使用Bagging算法来对欠采样后的数据进行分类。SENN-Bagging方法在减少多数类样本同时,可以减少多数类样本重要信息的丢失。在上述两种方法的基础上,建立了基于集成分类器的缺陷预测模型BS-Boosting,该模型由过采样方法B-oversampling和欠采样方法SENN以及Boosting集成分类器组成。BS-Boosting缺陷预测模型首先使用不同的方法确定正类和负类的边界样本,然后对于负类,使用SENN欠采样规则减少负类中的安全样本。对于正类类,采取B-oversampling方法对边界样本过采样,重点增加少数类边界部分的样本数量。在Boosting算法的迭代过程中,不断合成正类样本,并使用分类器对新样本集进行分类,删除被错分的正类合成样本。迭代结束后,将各个基分类器集成就形成了软件缺陷预测模型。BS-boosting缺陷预测模型在缺陷数据处理方面,增大了缺陷数据两类之间的区别,使缺陷数据能够被更准确的区分。在分类器方面,Boosting集成算法可以提高分类器的适应能力,防止分类器过拟合。
其他文献
关注时政热点,对于帮助学生正确认识国内外形势,激发爱国情感,提高思想觉悟,养成关心国家大事的习惯,提高适应社会生活的能力,有着十分重要的作用。培养学生捕捉热点问题的敏
本文研究了超临界CO2流体萃取金线莲中腺苷的方法。文中用光度法测定腺苷的含量,分别用单因素和正交设计试验对超临界CO2流体萃取腺苷的条件进行优化。结果显示萃取腺苷的最
本土资源具有各个地方区域特色,具有独特的特点和价值,是乡镇幼儿园独特的教育资源。充分利用当地资源优势,利用当地文化、民俗习惯、自然资源等开展趣味游戏,能够发展乡镇本
目的探讨慢性阻塞性肺疾病稳定期护理干预对患者肺功能及血气改善的有效性。方法随机将56名患者分入试验组和对照组,各28例。对两组皆进行消炎、解痉、平喘等基础治疗,对试验
Photoshop平面设计是中职设计类专业十分重要的一门必修课,其教学目的是培养学生具备使用Photoshop软件设计和处理平面图形的能力,并为后续课程的深入学习奠定基础。基于此点
随着新大纲的修订和升学压力的加大,语文这一学科的学习已经失去了它原有的乐趣,取而代之的是课本沉闷的内容和学生机械的学习。本文通过对中学语文教学现状的深入研究,分析
网络空间安全是确保国家运行正常的关键,网络空间也必将成为未来主战场之一,我国必须加快构建网络空间防御作战体系,研究网络空间防御作战方法,以有效应对未来网络空间安全面
中国在对外开放初期,外商在华直接投资基本上都采用新建企业方式,外资来源主要是周边国家或地区。由于当时大部分跨国公司不很熟悉中国的投资环境,因而往往采用中外合资、合作企
初中英语教学是一门艺术,课堂提问是英语教学过程的中心环节。精彩的提问能开启学生思维的大门,诱发学生积极思考,增进师生情感的交流,提高课堂教学效率。课堂提问应该成为引