基于学习机制的软件缺陷预测研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:betty5918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,软件的多样性以及普遍性已经渗入到人们的生活中,软件的可靠性是人们进行日常交易的重要保证,很多因素会对软件系统的可靠性造成威胁,而软件缺陷的存在是其主要因素之一。及时发现软件中潜在的缺陷,有助于提高软件的质量,节约成本。根据收集的已有的软件缺陷数据,软件缺陷预测技术可以对新的模块进行缺陷预测。然而,在软件缺陷预测中,标记样本难以获取,而且软件缺陷数据集中缺陷模块的数量远低于无缺陷模块的数量,即数据集是分类不平衡的,因此会对软件模块的预测结果造成一定的影响。为了解决以上问题,本文运用机器学习技术建立了一种新的软件缺陷预测模型。本文的主要工作有:(1)为了解决标记样本不足以及分类不平衡的情况,本文提出一种半监督集成学习软件缺陷预测模型(Tri_Adaboost)。一方面利用欠采样方法以及半监督学习方法Tri-training对标记样本集进行扩充,随机选取一部分无标记样本进行预标注,缓解标记样本不足的问题;另一方面,由于经过扩充后的标记样本集依然是一个不平衡数据集,为了提高预测模型的性能,在对扩充后的数据集进行分类预测之前,使用SMOTE算法对其进行采样,然后使用Adaboost集成方法分类预测。实验结果表明,本文提出的方法能明显提高模型的预测性能。(2)基于开源项目下生成了空指针引用缺陷数据集。由于大多数情况下对软件缺陷预测模型进行验证时使用的数据集都是基于模块的,即数据集中只指出具体的某一模块存在缺陷,但是并未指出模块中缺陷的类型。为了验证本文提出模型的有效性,对开源项目中存在的空指针引用缺陷进行提取,根据软件度量信息,生成空指针引用缺陷数据集。(3)使用NASA MDP数据集和基于开源项目下生成的空指针引用缺陷数据集对本文提出的预测模型进行验证,经过对比分析,Tri_Adaboost算法在F-measure和AUC上均能取得较高的值。
其他文献
宇宙空间中存在的高能粒子所导致的单粒子效应,严重影响航天应用软件的可靠性。为了解决这个问题,国内外相继对容错技术展开了研究。容错技术也称为加固技术,按实现方式分为
公路交通的重心逐渐由建设转向运营维护,边坡养护是公路运维的重要一环,其重要性和必要性不言而喻。目前,公路边坡养护以人工巡查为主,通过人工爬坡检查病害,拍摄并记录病害信息。这种方法虽可以查出大部分病害,但效率低下、危险性高。随着山区道路通车里程的增加,人工巡查方法已不能满足激增的边坡养护需求,研发新型边坡巡查技术,提高巡查效率和效果,是当前边坡养护工作迫切需要解决的问题。本文依托南方某段高速公路20
由于文化娱乐方式的多样性,“福泉阳戏”面临着消亡的危险。《元皇宝坛》以非物质文化遗产“福泉阳戏”为创作素材,以其历史背景、保护、传承和发展状况为画面表现,通过视听语言进行艺术处理,它能全面、显著地反映“福泉阳戏”的真实情况。以视听结合、动态呈现的方式给观众以很好的切真体验和直观感受,这是保护“福泉阳戏”较为有效的途径之一。本文使用文献研究法、案例分析法等,对非物质文化遗产影像化保护和文化传播的价值
当前我国经济发展迅速,为了适应新形势下的城镇转变,国家深入推进城镇化建设,因此当前各个城镇均进行城镇规划致力于对城区的改造,与城镇相关的基础设施建设也在如火如荼地进行,因此当前建设施工的范围非常广。虽然建设施工的目的是为了提升人们的生活水平以及生活便捷度,但是由于施工的复杂性等因素,往往在施工过程中不可避免地会出现一些问题,因此无论是对居民还是生态环境都会造成一定程度的影响。在施工所产生的环境问题
随着照明技术与产业的发展,发光二极管(Light Emitting Diode,LED)元件的高速自动化缺陷检测已成为产业急切需求。LED生产过程繁琐,容易在环氧树脂内外、环氧树脂边缘等区域产生多类缺陷,缺陷尺寸差异大、边界模糊、对光亮度敏感,导致缺陷特征提取困难,影响高速准确检测过程的效率。针对当前LED缺陷检测存在的速度慢、对光亮度变化鲁棒性低、缺陷分类不准确等问题,提出自适应光亮度的高速准确
随着国家经济的日益发展,国家基础建设规模越来越大,在实际工程中,会遇到许多不良地基,不能满足拟建建筑物承载力和变形的要求,就需要对不良地基进行处理。近些年来,随着地基处理技术的日益成熟,CFG桩复合地基承载力和抗变形能力较好,CFG桩复合地基在工程中运用较多,但在实际工程中不难发现,CFG桩复合地基利用现有规范计算的沉降量比实际监测的沉降值较大,即安全系数较大,且计算时过程比较复杂,因此提出一种简
PPP模式,即政府与社会资本合作模式,因其可以有效地担政府的财政压力,提高资源置效率,所以被各国政府在基础设施建设领域中推广和应用。我国于1994年广泛推行PPP模式以解决我国公共基础设施服务资金短缺的问题,时至今日,虽然PPP模式已经在我国推行很多年,但是与其火热趋势形成反差的是PPP项目的落地率并不高,落地难是PPP在我国公共基础服务设施中推行普遍存在的问题。此背景下,对于经济发展比较落后的贵
近几十年来,图像处理技术在医疗,军事,农业,工业等领域得到了广泛的应用。在信息爆炸的时代,原始数据量非常巨大,以至于即使进行了特征提取,特征的维度仍然不够低而导致信息
移动智能终端是现在的必须品,它将日常生活中的每一个环节都变得更加便利。其中Android平台拥有着移动智能终端系统最大的市场,但同时Android平台也是智能终端攻击者的首要目
随着经济的不断发展,业务变得愈发复杂,企业对信息系统的要求越来越高。信息系统由以数据为中心的结构向以模型驱动的过程感知的信息系统转变。业务过程成为企业业务的核心。