基于代价敏感学习的软件缺陷预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:camelwin2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着应用软件的深入普及,软件的复杂性和多样性也同样随之日益增加,随之而来的是软件缺陷的增加,这将使软件的测试和维护成本升高,同时使用户的体验感降低,从而导致用户量的减少和公司名誉的损害,严重者甚至会产生灾难性的危害。软件缺陷预测技术可以在软件开发的早期识别有缺陷的软件模块,有助于开发人员及时修复bug,从而提升软件质量。在软件的缺陷预测中,常常会出现类不平衡问题,即有缺陷类别的样本数量一般远小于无缺陷类别的样本数量。同时,将有缺陷的模块预测为无缺陷所造成的损失是远大于将无缺陷模块预测为有缺陷。而代价敏感学习是对于不同的误分类情况给予不同的误分类代价,在缺陷预测模型中使用代价敏感学习可以使软件缺陷预测模型更加关注于对有缺陷模块的误分类情况,从而提高预测模型的分类能力。基于此,本人阅读了有关软件缺陷预测、代价敏感学习的大量国内外文献,并结合机器学习等专业知识,对软件缺陷预测和代价敏感学习的相关概念进行阐述和分析,并提出了两种基于代价敏感学习的软件缺陷预测方法:(1)基于代价敏感学习的CART决策树的缺陷预测方法。首先,为了解决类别不平衡现象,本文对于上述两种不同的误分类情况,在代价函数中分别设置了不同的代价敏感因子。其次,通过实验训练出10组在测试集上表现良好的代价敏感因子α和γ,即选出10组在测试集上表现优异的CART决策树模型,并通过加权投票进行集成。最后,将本算法和一些传统的机器学习算法进行对比来证明本算法的有效性。(2)基于代价敏感学习的CNN软件缺陷预测方法。传统的手工制作的特征无法有效地捕捉到程序的语义和结构信息,而深度学习架构可以有效地捕捉高度复杂的非线性特征。因此,本文提出了基于代价敏感学习的CNN软件缺陷预测方法。首先,将程序代码解析成抽象语法树节点,并将每个抽象语法树节点转化成字符串向量,通过映射关系转化成数值向量,并将数字向量输入到卷积神经网络中,来提取代码的语义语法特征。其次,将通过CNN获取的特征和传统特征相结合,从而获取更丰富的bug源代码的特征表示。再次,构建代价敏感的CNN模型,引入multi-head attention机制来让卷积神经网络选择性地接受和处理信息;同时,通过给损失函数加上权值,使得当模型对有缺陷样本判断错误时,损失的权重更大。最后,将数据集输入到基于代价敏感的CNN模型中,并通过和传统的LR模型、DBN模型、DBN+模型以及DP-CNN模型的对比来证明本算法的有效性。
其他文献
煤与瓦斯突出是煤矿生产过程中的一种猛烈急剧的动力灾害,形成机理复杂,影响因素众多。随着近年来各类智能算法的快速发展,结合多种影响因素指标,将煤与瓦斯突出预测转化为非线性的分类问题,构建煤与瓦斯突出风险预测模型,使煤与瓦斯突出灾害的隐患实现早发现早解决,保障井下煤矿的安全开采。分析现有对煤与瓦斯突出发生机理的研究,结合地应力、瓦斯、煤体物理学性质三类因素,确定了预测指标体系,对灰色关联分析加以改进,
学位
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)由于具有效率高,功率密度高,结构简单等优点,已成为航空航天、电动汽车等领域驱动电机的重点发展对象。随着工业伺服控制中PMSM的使用越来越普遍,对系统高性能控制的需求也越来越高。由于运行中的PMSM参数具有不确定性,且温度、磁饱和程度也都在不断变化,传统矢量控制中的PI调节器易受电机参数和负载扰动的影响,导
学位
目的:探讨剖宫产术后切口感染的风险因素,以此制定针对性护理对策。方法:选取2019年5月-2021年12月我院收治的20例剖宫产术后未切口感染患者与20例切口感染患者作为研究对象,收集患者的临床资料分析导致切口感染的危险因素,并进行Logistic多因素回归分析。结果:年龄、妊娠合并症、BMI指数、术中出血量、手术时长、侵入性操作是导致剖宫产术后发生切口感染的危险因素(P <0.05)。经Lgis
期刊
农村消费是新消费的重要组成部分,是我国消费升级的重要领域之一。农村电商的规模增长,为国家精准扶贫工作提供了有力支持。在线购买行为促进了农村消费者群际分类,同时农村消费者对自我分类认知存在显著性差异。农村消费者对社会认同的认知差异又对其在线购买行为产生重要影响,立足农村线上消费市场研究现状,确定本文选题,从营销视角出发,将社会认同引入农村消费者线上购买领域研究。针对社会认同研究多聚焦在社会心理学领域
学位
近年来,由惯性导航系统(INS)与全球卫星导航系统(GNSS)相结合的组合导航系统广泛用于增强无人驾驶车辆的位置、速度和姿态信息。然而,GNSS信号易受复杂的外界环境影响,在遮挡严重的城市峡谷、隧道等地信号会发生中断,无法完成定位服务。因此,研究GNSS/INS组合导航系统在特殊环境下GNSS信号丢失时,如何能够提供可靠的导航服务具有重要意义。解决GNSS/INS组合导航系统中GNSS信号丢失问题
学位
在射频微波器件的设计中,需要在保证器件工作性能的前提下减少设计时间和成本,通常用CAD(Computer Aided Design)软件来建立射频微波器件模型。但在传统射频微波器件的设计中,需要不断优化各参数以满足设计指标,整个过程是耗时费力的。深层神经网络具有高维数据处理能力和复杂非线性关系的近似能力,因此将深层神经网络建模方法应用到天线等射频模块设计中。本文主要的研究工作概括如下:首先,针对基
学位
知识图谱是一种用图来描述知识的技术方法,在表示从不同领域收集的知识方面起着至关重要的作用。然而,不同的知识图谱通常由不同的技术或不同的语言构造,这些单独构建的知识图谱之间包含异构但互补的内容,因此将不同来源或不同语言的知识图谱整合为统一的知识图谱很有意义,一种有效的对齐知识图谱的方法是把多个不同来源但代表相同对象的实体进行对齐。在大数据时代的背景下,为了实现知识的全球共享,跨语言实体对齐作用愈加明
学位
无线通信技术的飞速发展,以及各类新型通信业务场景的不断涌现,正在促使着人-机-物-空间的全面互联。伴随着网络终端数目的持续增长,无线频谱资源稀缺与频谱利用率之间的矛盾日益显现,加重了整个网络的负担。终端直连通信(Device-to-Device,D2D)和非正交多址接入(Non-Orthogonal Multiple Access,NOMA)等下一代无线通信关键技术,可以有效缓解无线频谱资源压力。
学位
随着移动设备需求的增长,价格低廉的单频接收机占据了主要的GNSS市场。因此,基于单频接收机的PPP技术逐渐受到关注。本文在C++平台实现了GNSS单频PPP算法,结合MGEX跟踪站和实测数据,比较GPS、Galileo、BDS各频点的数据质量、单频PPP定位精度和收敛速度,分析了不同条件下的单频PPP应用效果。本文研究内容和结果如下:(1)选取全球范围内分布均匀的29个MGEX站,进行各频点的数据
学位
随着时代的不断发展和社会生产力的提高,网络进入到家家户户,在人们生活中的比重越来越大,各种网络平台已经成为获取和传播信息的重要媒介,与此同时,微博凭借其社交性、易用性、灵活性等突出优势,逐渐成为目前中国最受欢迎的网络社交平台。2020年初,新冠肺炎疫情的爆发极大影响了全球大部分地区民众的生活状态,此次公共卫生事件成为全社会关注的重点,国民线下沟通交流更加困难,更依赖互联网平台发表评论以表达自己的态
学位