基于机器学习方法的软件缺陷预测模型研究与优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lionados
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件的规模及复杂性的日益增加,软件测试成本开销日益增大。因此对软件缺陷进行有效预测,使可能包含缺陷的软件模块得到优先测试,从而降低测试成本开销,具有重大的现实意义。在此背景下,论文根据软件缺陷预测的两大目标,即软件模块是否有缺陷的概率,以及可能包含缺陷软件模块的排序,展开了对软件模块缺陷分类预测和软件模块缺陷排序预测的研究工作。具体工作如下:软件缺陷数据集中的大部分软件模块是无缺陷的软件模块,因此缺陷数据集是分类不平衡数据集。论文针对分类不平衡问题,研究了已有的不平衡处理方法,深入分析了SMOTE方法、ADASYN方法、EasyEnsemble方法和BalanceCascade等方法的核心过程。最后,论文在多种不同的数据集上进行了充分的实验,发现EasyEnsemble采样方法效果最佳。软件缺陷分类预测分为两类,即预测有缺陷和预测无缺陷。论文在进行缺陷预测分类工作时,论文首先研究了当前流行的集成学习方法,包括Bagging和Boosting方法;然后研究了多种基于Bagging的集成学习方法和多种基于Boosting的集成学习方法;随后,论文利用Stacking策略将多种集成学习方法融合在一块,构建了一个新的模型;最后,论文针对多种不同数据集设计了充分的实验。实验结果表明,基于Stacking的集成学习模型能够有效提高模型分类预测能力。论文通过模型预测软件模块的缺陷数目,然后依据数目对其进行排序。论文在预测缺陷数目时,首先,将递归特征消除算法作为特征选择方法;然后,利用Lasso回归和岭回归对递归特征选择算法进行改进;最后,利用回归模型进行缺陷预测排序。实验结果表明,改进的递归特征消除算法能够提高缺陷预测排序能力。
其他文献
语素是阅读篇章的组成部分,语素意识与阅读理解能力也存在关联。从第二语言习得的角度出发测试汉语作为母语使用者与汉语作为第二语言习得者的语素意识及阅读理解能力,并通过
目的探讨PDCA循环管理方法在持续改进不合理处方干预质量中的应用效果。方法选取本院2017年1月至6月门急诊药房不合理处方干预记录2147例(干预前组)和2017年7月至12月门急诊
基于ERA-Interim再分析资料,采用通用热气候指数(Universal Thermal ClimateIndex,UTCI),分析1979-2014年中国气候舒适度的空间格局和时空变化特征。结果显示:①中国除青威高原地区
从马克斯.韦伯的代表作《新教伦理与资本主义》入手,分析了新教在西方资本主义发展所扮演的角色,揭示了新教伦理与西方资本主义发展之间非线性的关系,更加深入地理解了社会学
采用数值方法研究离心风机在流体激励力和叶轮离心力共同作用下的结构响应。离心风机在运行过程中的振动主要由流体激励力和叶轮离心力引起,传统的分析方法很难准确地模拟和预
<正>为认真贯彻落实中央关于开展扫黑除恶专项斗争的部署要求,正确理解和适用最高人民法院、最高人民检察院、公安部、司法部(以下简称"两高两部")2018年《关于办理黑恶势力
为了改善AM60镁合金的抗腐蚀性能,通过电化学阻抗、极化曲线和浸泡等方法研究了苯甲酸钠(SB)对AM60镁合金在3.5%氯化钠溶液中的缓蚀作用,并考察了温度对缓蚀率的作用规律,借助扫
伴随着人口极端的大都市圈集中化,日本地方城市人口减少不断加剧,房屋空置率也达到历史最高,特别是四国地区、中国地区的房屋空置问题尤其严重。近几年在地方城市,地方政府与
微生物污染指示菌在水体中的稳定性直接影响到定量的准确性及应用的适应性.通过建立水环境模拟反应器,以实时荧光定量PCR方法探究鸡粪中大肠埃希氏菌(EC)、拟杆菌(GB)及鸡源特异