【摘 要】
:
随着软件系统的规模和复杂度日益庞大,正确地找到有缺陷的软件模块需要消耗大量的人力、物力等资源。软件缺陷预测技术通过挖掘、分析软件项目中的历史开发数据来检测潜在有缺陷的软件模块,从而提高开发效率节省开发成本。目前在软件缺陷预测领域,研究者主要使用机器学习的理论来构建缺陷预测模型,这些模型在实际应用中存在软件缺陷数据集中会包含大量的冗余特征、数据集的分布不平衡等问题,这些因素在很大程度上会影响模型的预
论文部分内容阅读
随着软件系统的规模和复杂度日益庞大,正确地找到有缺陷的软件模块需要消耗大量的人力、物力等资源。软件缺陷预测技术通过挖掘、分析软件项目中的历史开发数据来检测潜在有缺陷的软件模块,从而提高开发效率节省开发成本。目前在软件缺陷预测领域,研究者主要使用机器学习的理论来构建缺陷预测模型,这些模型在实际应用中存在软件缺陷数据集中会包含大量的冗余特征、数据集的分布不平衡等问题,这些因素在很大程度上会影响模型的预测性能。本文针对软件缺陷预测过程中存在的问题分别利用随机森林算法对特征进行选择从而删除数据集中的冗余特征,利用SMOTE过采样结合随机欠采样技术改善数据集的不平衡率。本文结合数据集特点选用SVM作为基础分类器,设计了基于随机森林和SVM的软件缺陷预测模型。论文的主要研究内容如下:(1)利用随机森林分类器的分类准确率作为特征可分性的依据通过选取最高分类准确率对应的特征子集实现对特征的选择。(2)结合SMOTE过采样和随机欠采样技术使样本中多数类和少数类的数目达到平衡,同时样本数量降到原来样本数量的一半,提升了分类速度。(3)对于特征选择和数据采样的先后顺序以及数据预处理后作用于采样后的数据集还是原始数据集展开了研究并提出了四种训练场景,本文使用美国国家航空航天局提供的软件缺陷公开数据集进行实验,通过比较基于四种场景的软件缺陷预测模型的性能选出了其中最优的预测模型。实验结果显示基于采样数据的特征选择并将特征选择结果作用于采样数据生成的训练数据集结合SVM后得到的预测模型在总体性能上最好。(4)在模型优化环节,本文对最优场景下的预测模型使用PSO算法进行参数选择,从而得到最优参数的软件缺陷预测模型。经过一系列的对比实验证明,最后得到的这个预测模型在综合性能上达到了总体最优水平。本文提出的这种软件缺陷预测模型能够对软件缺陷数据集实现一个良好的预测效果,从而能够为软件开发人员提供指导性的解决方案,进而改善软件质量,提高开发效率。
其他文献
油气管道是一种长效、安全、经济的输运石油和天然气的工具。焊接技术广泛应用于油气管线的连接中,而管线焊接接头在服役过程中常受到环境介质的影响,是焊接结构中的薄弱环节
盲人由于视力的缺失,无法通过视觉直观地了解周围实物世界。盲用二维触点显示器系统主要是为盲人“看图识图”提供服务,将图像信息通过内部处理映射到二维点阵中,让盲人能够自主去了解体会图像信息。目前,我国在盲用触觉图像显示器领域的研究相对较少。由于其成本高昂,还没有实现商品化,无法惠及广大盲人群体。本文旨在设计一套易用性较好的二维触点显示器系统。本系统设计基于YOLOv3算法的识别分割处理模块,完成图像的
地下水原位修复技术中可渗透性反应墙(PRB)技术优势明显,PRB设计研究日趋完善,但仍缺少对PRB修复效果影响因素敏感性的研究。本文以阜阳市浅层地下水硝酸盐氮污染为蓝本,通过分
目的:通过检测胃癌患者与健康对照者外周血及肿瘤组织与其配对癌旁组织中癌胚抗原相关细胞黏附分子1(CEACAM1)的表达水平,结合临床上常用的血清肿瘤标记物,分析血清CEACAM1在胃癌中的诊断价值,探讨癌组织中CEACAM1的表达与临床病理特征的关系。方法:1.收集2018年9月1日至2019年11月30日就诊于中国人民解放军联勤保障部队第九四〇医院普外科术前经病理明确诊断并行D2根治术的98例胃
有机金属卤化物钙钛矿是一种新型的可溶液处理的半导体材料,具有荧光量子产率高、色纯度高、能带可调、可低温与大面积制备等优异特性,因此钙钛矿材料在发光器件中表现出极大的应用前景。然而,在钙钛矿发光二极管(Perovskite Lighting Emitting Diode,PeLED)中存在以下问题:第一,单步旋涂法制备的钙钛矿薄膜存在多孔洞多和高缺陷密度现象;第二,载流子传输不匹配。因此如何改善钙钛
目的:研究PRRX1、Smad2、Vimentin和E-cadherin在胃癌组织、癌旁正常组织中的表达及临床意义,探究PRRX1和Smad2在胃癌上皮间质转化中的作用和预后的影响。方法:收集86例胃癌组织和对应癌旁正常组织,免疫组织化学SP法检测PRRX1、Smad2、E-cadherin和Vimentin的表达。Spearman’s方法分析PRRX1与Smad2、Vimentin和E-cadh
二胡的演奏技法众多,而击弓这一演奏技法多用于表达乐曲中高亢激昂和铿锵有力的情绪,或表现音乐最为激烈、澎湃、充满矛盾的乐章当中,将观众带入到音乐所传递的情感和描绘的画面中去。击弓的运用之所以有如此戏剧性的演奏效果,与其演奏时的发音角度有很大的关系,本文选择从“击弓的最佳发音角度范围”这一方面进行研究,由绪论、正文和结语三部分组成,其中正文分成四个章节。绪论:介绍本文用“二胡右手技法-击弓的最佳发音角
近年来,水资源短缺和水污染的问题日益严峻,有机染料是工业废水中常见的污染物之一,对人类的身体健康影响严重。光催化技术具有绿色环保、清洁高效等特点,符合可持续发展的要
能源和水,作为人类社会赖以生存的两种重要资源,相互间有着不可切割的联系,现有割裂式管理降低了管理效果。城市群作为人口聚集地和产业集中区,在消耗大量的能源和水的同时,
由于长期大量抗生素的滥用,越来越多的细菌产生耐药现象,因此抗菌范围广、抗菌效果高的抗菌剂的开发和应用已成为现代食品、医药、纺织等行业的热点。与传统抗生素等抗菌剂相