分类不平衡对软件缺陷预测模型性能的影响研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户:woshixiaomihu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.
其他文献
新课标认为,教师的评价语言直接影响学生学习的兴趣。教学评价语是课堂上老师与学生沟通的重要纽带,是课堂教学顺利进行的推进剂。作者结合自身教学经验、借鉴身边教师的经历
本文从自然拼读法与国际音标法在英语教学中的优势和局限性研究入手,分析了这两种教学方法在教学应用中对英语学习的不同促进作用,设计将二者交互用于不同教学阶段的具体策略
现代化物流的发展和国际物流的形成,港口成为国内及国际间货物流动的枢纽,现代化港口对专业人才需求紧迫,通过实验课上进行港口集装箱进口流程的模拟,对在校学生进行分析问题
研究了不同营养水平饲料中添加饲用复合酶对肉鸡生产性能的影响。结果表明,(1)随着肉鸡的饲料的营养水平在不断的下降,肉鸡在0~2周龄的增重会明显的下降。而添加了复合酶以后
<正>在书写单位时,有学生认为,"倍"作为单位书写,在计算得数后更能清楚地反映出数量间的关系。遇到这种情况怎么处理?究竟"倍"为什么不需要当作单位名称来书写?江苏扬州陈怡
期刊
我校将教学质量监控作为加强教学管理、提高教学质量的重要保障。根据新形势下高素质技能型人才培养的要求,在建立健全教学质量监控体系等方面进行了积极地探索,通过"完善1个
<正>目的建立款冬花的HPLC指纹图谱,为该药材的质量评价提供实验依据。方法采用HPLC技术,采用Diamonsil C18(2)5μm 250×4.6mm色谱柱,流动相为0.1%磷酸-乙腈梯度洗脱,流速为1.
目的探讨新生儿高压氧舱治疗的安全管理措施及护理策略。方法对需行高压氧治疗的210例新生儿,在高压氧舱治疗中,细化管理制度,规范操作方法 ,做好在治疗中可能出现问题的处理
通过光学显微镜、扫描电子显微镜、能谱分析等手段,分析了进气管座镀镉层表面的白色斑迹,并对生产过程中所用到的F-35防锈油、7804抗化学润滑脂、铁锚352胶3种有机物进行了模
目的 了解儿童上呼吸道感染抗生素使用情况 ,分析抗生素治疗合理性。方法 对住院及门诊上感患儿的抗生素使用情况进行分析。结果  384例门诊上感患儿中抗生素的使用率为 9