不同场景的软件缺陷预测方法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:ab7268062
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件产品已经融入到我们日常生活的方方面面,但是在软件设计、开发、配置等过程中的种种因素导致软件中不可避免存在缺陷。软件模块中隐藏的缺陷威胁着软件产品的安全性,降低了软件产品的可靠性。因此,在交付产品之前,检测并修复有缺陷的软件模块是一项极为重要的软件质量保障活动。然而由于软件规模和复杂性的持续增长,提高软件质量对软件开发和测试人员来说是一项越来越具有挑战性的任务。由于有限的测试资源通常无法支持对所有的代码进行全面的检查,这需要一个优先级次序来更好地分析软件产品。换句话说,软件开发人员和测试人员应该合理地分配宝贵的资源来测试那些高概率包含缺陷的软件模块。为了寻求这种优先级,研究人员提出了软件缺陷预测来识别出这种高风险模块,进而推荐给开发或者测试人员进行优先检查。目前研究地最广泛的缺陷预测方法是基于有监督模型的技术,它首先在有标签的软件模块上训练一个分类模型,然后使用它来识别没有标签的模块是否包含缺陷。基于有监督的缺陷预测模型需要当前项目或外部项目的历史有标签数据作为训练集。根据训练集的来源不同,有监督的缺陷预测可以分为版本内缺陷预测场景、跨版本缺陷预测场景和跨项目缺陷预测场景。这三种场景下训练集分别来自于同一个项目相同版本的数据、同一个项目先前版本的数据和外部其他项目的数据。本论文主要研究基于机器学习的新技术来解决这三种缺陷预测场景所面临的不同问题,目的是进一步提升缺陷预测的性能。具体的研究内容如下:(1)为了学习更具有判别性的特征表示和解决缺陷数据固有的类不平衡问题,本文提出了一个基于核主成分分析和加权极限学习机相结合的版本内缺陷预测框架。该框架首先利用核主成分分析方法分别将训练集和测试集映射到一个高维的特征空间,这种特征映射使得在原始特征空间中线性不可分的模块变得易于区分。然后该框架用映射后的训练集构建一个加权的极限学习机分类模型来预测被映射以后的测试集的标签。该分类模型通过赋予有缺陷和没有缺陷的软件模块不同的权重来解决类不平衡问题。我们在NASA数据集的10个项目和AEEEM数据集的5个项目上进行实验,并用6个指标来评价所提出框架的性能。实验结果表明,我们提出的版本内缺陷预测框架的性能整体上优于其变体方法、对比的特征选择方法和类不平衡学习方法。(2)为了从先前版本数据中选择一个对当前版本的数据来说最优的软件模块子集作为训练集,本文提出了一个基于两步训练子集选择方法的跨版本缺陷预测框架。该框架首先使用稀疏建模表示选择方法过滤掉一些无用的软件模块,保留使重构原始数据误差最小的软件模块。该过程不依靠来自于当前版本的软件模块的辅助,是一个自我约简过程。然后该框架在当前版本数据的参与下,使用基于不相似性的稀疏子集选择方法从上一步选择的模块中再选出一个能够有效表示当前版本数据的模块子集,最后选择的模块子集构建的分类模型对当前版本的数据更有针对性。该过程需要来自于当前版本的软件模块的辅助,是一个辅助精炼过程。我们在PROMISE数据集的17个项目的67个版本数据上进行实验,也用6个指标来评价所提出框架的性能。实验结果表明,我们提出的跨版本缺陷预测框架在50组跨版本点对上的整体性能优于对比的训练子集选择方法以及其基于一步训练子集选择的变体方法。(3)为了进一步缩小两个跨项目数据之间的分布差异,本文通过引入一个先进的平衡分布适应模型,提出了一个新的基于迁移学习的跨项目缺陷预测框架。不同于之前的迁移跨项目缺陷预测模型只考虑跨项目数据间的边缘分布差异,该模型综合考虑跨项目数据间的边缘和条件分布差异。另外,考虑到跨项目数据间相似性程度对这两个分布差异相对重要性的影响,该模型还分配这两个分布差异不同的权重以适应不同的跨项目点对。除此之外,我们也研究了6种不同的数据归一化策略对该跨项目缺陷预测框架性能的影响。我们在NASA数据集的5个项目和AEEEM数据集的5个项目上进行实验,也用6个指标来评价所提框架的性能。实验结果表明,我们提出的跨项目缺陷预测框架在40组跨项目点对上的整体性能优于其他的基于迁移学习和基于训练数据过滤的跨项目模型。综上所述,本论文旨在针对不同的软件缺陷预测场景所要解决的难点问题,结合新的机器学习技术,提出新的框架模型以提高缺陷预测的性能。本论文扩展了机器学习技术在软件工程领域方向的应用,并给软件缺陷预测提供新的解决方案,对软件质量保障活动具有重要意义。
其他文献
我国作为塑料件的生产与使用大国,80%的工程塑料都使用注塑成型方法加工而成。在使用注塑机生产注塑产品的过程中,产品的工艺参数和生产过程中的加工数据直接反应了生产产品
气流成网机作为重要的非织造设备,其技术的高速发展推动了纺织行业的发展,但在生产中气流成网机存在成网不均匀和不同纤维成网时参数控制不明确的问题。本文对气流成网机风道
越来越多的证据表明,噪声对基因调控网络的影响是不可忽视的。在本文中,我们分别从内信号随机共振(ISSR)和能量景观的角度研究了噪声对基因调控网络的动力学的影响.首先,我们
随着网络时代的迅速发展,如何提高信息传递效率成为了一个研究热点,衡量信息传递效率的一个有效度量是随机游走。探索网络拓扑与随机游走之间的关系,进而发现影响随机游走效
汉语“为”类关系动词,用法和意义比较复杂,是书面写作中使用频率较高的一类词,留学生特别是高级水平留学生在书面语写作中也常常用到。本文主要通过筛查河北大学博硕士学位论文数据库中2014—2019年的56篇外籍汉语国际教育硕士的毕业论文获得偏误语料,对误加、误代、遗漏和错序四种类型进行偏误分析。在得到“为”类关系动词偏误基本状况的基础上,对河北大学和上海政法学院高级水平留学生的“为”类关系动词掌握情况
丹参是我国传统的中药之一,已有数千载的应用历史。传统的医籍记载丹参有“祛瘀止痛,活血通经,清心除烦”等疗效。近现代以来,丹参广泛应用于临床治疗冠状动脉心脏疾病、心肌
煤气化、催化裂化工艺以及联合循环发电工艺等工业生产过程中,烟气中颗粒的存在会对设备的安全运行带来危害,损害输送管线。因此,工艺过程中常增设净化设备来控制高温烟气的
与传统的种子预处理方法(如紫外线和γ辐射、碎裂、热水浸泡和化学试剂处理)相比,大气压低温等离子体是一种快速、均匀、经济、有效和生态的处理方法,能促进种子萌发和幼苗生长
随着我国经济的不断发展,产业规模不断扩大,大件产品也随之增加,对大件运输车辆的需求与日俱增,对运输车辆的要求也不断提高,大件桥式运输车是大件运输领域近年来一种新兴的车型,因其承载量大、运输方便等特点,被广泛应用到石油、军事、能源工程等领域。大件桥式运输车的广泛使用,随之而来的便是其安全性问题。本文以某企业600t级大件桥式运输车的桥架结构为研究对象,利用有限元软件ANSYS从桥架结构的强度、刚度、
类固醇激素的微生物降解是人们去除环境内分泌干扰物的研究热点。微生物基因组中编码降解类固醇化合物的蛋白酶的相关基因的表达调控是微生物降解类固醇激素的关键所在。其中