基于深度学习的缺陷定位技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:dlfly2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,软件作为基础设施,在各个领域的应用中起着至关重要的作用,协调控制了各项工作的正常运行。然而,不断增长的软件规模以及复杂度同时也带来了软件缺陷数量和复杂度的不断增长。为应对日益严重的软件缺陷问题,学术界和工业界投入大量精力来研究自动化软件缺陷定位技术。由于程序逻辑结构的复杂性和多样性,从程序内部根据其控制和依赖关系去查找缺陷变得十分困难,不确定性也较为突出,因此,许多研究人员尝试通过分析运行程序获得的外部数据来发掘其中的特征,从而达到找到程序内部缺陷的目的。通过运行程序所获得的外部数据,存在数量巨大、信息较多的特点。基于这些外部数据获取充分的缺陷特征以实现高精度缺陷定位面临巨大的挑战。随着深度学习技术的发展,许多深度学习架构在数据处理上展现出了巨大的潜力,能从大批量纷繁复杂的数据中获得其他方法不容易提取到的特征。这为破除当前软件缺陷定位技术的特征提取瓶颈,实现高精度缺陷定位提供了新思路和解决方案。因此,本文从深度学习技术在缺陷定位领域的运用、动态切片技术和深度学习技术的融合、信息覆盖矩阵的优化和测试用例集增强技术这四个方面系统地研究了基于深度学习的缺陷定位技术,提出了一系列缺陷定位方法并进行了相应的实验验证,证明了本文方法的有效性。论文的研究内容和创新点为:1)基于深度学习的软件缺陷定位技术,为深度学习技术在软件缺陷定位领域的应用提供了新思路。传统的基于测试用例覆盖信息的缺陷定位技术,在精度上达到了一定的瓶颈,需要新技术对缺陷定位注入新的活力,以实现更高精度的定位效果。本文研究了基于深度学习的缺陷定位方法,通过利用测试用例覆盖信息作为网络训练数据,基于训练模型计算语句的可疑值,以可疑值排名方式来找到错误语句在程序的位置。本文根据覆盖信息数据的特征对其进行特殊化处理,构建出深度神经网络的输入模型,应用到典型的三种深度神经网络(即多层感知机、卷积网络和循环网络),训练并得到了不同的缺陷定位结果,以实验方式进行了系统比较和验证。2)基于动态切片和深度学习的缺陷定位方法,从程序语义关联性角度优化了基于深度学习的缺陷定位技术。现有的基于覆盖信息的缺陷定位方法大多以独立的语法单位设计缺陷定位方法,对语法语义关联关系缺乏相应的考虑和设计。基于深度学习的缺陷定位方法也忽略了语句之间存在的关联关系和上下文信息。有必要加入可疑语句上下文来获取更丰富的语法语义信息。本方法运用动态切片的思想剥离出与错误输出相关的语句集合,从而降低训练复杂度,提高定位精度。实验表明将动态切片技术和深度学习技术相结合可以大幅提升缺陷定位的效能。3)基于TF-IDF技术的测试用例覆盖信息优化技术,构建了测试用例生成信息覆盖矩阵的新的方法体系,从信息覆盖模型角度优化了基于深度学习的缺陷定位技术。现有的基于测试用例覆盖信息的缺陷定位方法采用语句执行覆盖信息,即是否被测试用例执行的二进制状态信息。这些二进制信息只能展现出语句是否被覆盖,并不能表明语句在测试用例执行过程中对测试用例结果的贡献度。有必要优化信息覆盖矩阵,使之能更准确地反映出语句和测试用例结果之间的关系。本文提出了将TF-IDF(Term Frequency–Inverse Document Frequency)技术,即将词频和逆文档频率融入缺陷定位技术体系中,自动获取语句和测试用例结果之间的关联关系,并应用到基于深度学习的缺陷定位技术和基于频谱的缺陷定位技术,实验结果表明本方法能大幅提升定位效能。4)研究测试用例集非对称性对基于深度学习的缺陷定位技术的影响,从测试用例增强角度优化了基于深度学习的缺陷定位技术。现有测试用例集的成功测试用例和失败测试用例的数量通常是不同的,且大多数情况是成功测试用例的数量远远大于失败测试用例的数量。基于深度学习的缺陷定位技术,以测试用例集获得的语句覆盖信息为基础进行训练。这种非对称性的数据集会给训练带来偏向性影响,从而影响缺陷定位精度。本文分析了测试用例集非对称性对基于深度学习缺陷定位的精度影响,以此提出增强的测试用例集来消除非对称性所导致的负效应,实验结果表明测试用例集增强技术可以显著提升基于深度学习的缺陷定位技术的定位效能。
其他文献
语义解析是自然语言处理领域的基础工作及研究热点,被认为是实现机器理解自然语言的关键。近几十年,信息技术高速发展,各个行业积累了海量的数据,这些数据大多以数据库的形式进行存储,数据库也被作为相关应用程序的存储基础。SQL解析是指通过机器自动地将自然语言问题转化为SQL语句,作为一种与数据库交互的解析技术,该技术是语义解析技术中的一个重要分支,可直接用于智能化系统的解决方法,如数据库问答、智能化查询接
学位
雷达辐射源信号分选是雷达信号侦察的关键技术,是感知电子战场态势的核心步骤,同时也是当前制约雷达对抗发展的重要环节。然而,随着电磁信号环境的日益复杂,雷达信号趋于高密度化、形式多样化,现有依托批量处理方式的雷达辐射源分选方法很难满足雷达侦察的实时性需求。如何提高雷达信号分选技术,实现雷达辐射源在线分选正成为电子对抗领域中具有重要意义的研究课题之一。本文主要在数据流聚类框架下解决雷达辐射源信号在线分选
学位
格上困难问题与传统的大整数分解问题、离散对数问题一样,可以被用来设计各种密码方案。不同的是到目前为止,仍未找到能够高效求解格上困难问题的量子算法。因此,密码学家普遍认为基于格上困难问题构造的密码方案,具有抗量子计算攻击的能力,是最重要的后量子密码备选方案之一。随机格中最短向量问题(SVP,Shortest Vector Problem)和最近向量问题(CVP,Closest Vector Prob
学位
随着信息社会的深入发展,军事领域以及个人隐私等对信息传输安全性的需求日益增长,加强对无线通信技术的安全性研究对于提升我国的国防安全以及保护个人隐私具有十分重要的意义。随着计算机技术的飞速发展,在网络层等上层实现的基于加密的传统安全策略逐渐受到威胁;物理层安全无线通信技术充分利用了无线信道的物理层特性,理论上可以实现信息传输的绝对安全,有望成为基于加密的传统安全策略的补充甚至替代。方向调制作为一种通
学位
雷达多目标跟踪技术在区域监视、空中预警等领域有着广泛的应用,从而成为了研究的热点。随着隐身技术的发展及无人机等低小慢目标的出现,获取的观测存在漏检、虚警、观测源不确定等问题,这对多目标跟踪技术提出了严重的挑战。多目标跟踪的任务是从这些观测中估计出随时间变化的目标数目、状态和轨迹信息。随机有限集(Random Finite Set,RFS)理论的出现为这一任务的实现提供了新的解决方案。RFS可以对观
学位
混合层是十分典型的流动现象,既涉及拟序涡结构等机理问题,又与混合效率、流动噪声、流动阻力等实际问题密切相关。开展混合层研究具有重要的理论意义和工程价值。但混合层流动时空尺度范围广,高维非线性,且实验和数值仿真产生的数据量极大,这为机理分析和流动控制研究带来了严峻的挑战。本文以不可压混合层和超声速混合层为研究对象,利用机器学习方法,系统地开展了混合层降阶分析和流动控制研究。提出了一种基于机器学习的降
学位
移动互联网时代,智能移动设备已经渗透到个人与社会生活的方方面面,网络中的移动应用流量数据被赋予了更多的意义,移动网络的安全和管理也受到越来越多的重视。移动应用流量分类作为网络端识别不同移动应用与异常流量的有效手段,是实现移动网络安全和管理的技术基础,然而由于移动应用流量与传统网络流量在流量行为与特征上的显著差异,且相关研究尚不充分,移动应用流量分类技术仍面临一系列的未知与挑战。流量分类技术经过多年
学位
我国航天事业的迅猛发展,对飞行器设计水平提出了更高的要求。构建飞行器有限元或计算流体等高保真模型,既可以灵活方便地评估设计方案的性能、验证设计的优劣,又可以基于高保真仿真分析进行优化设计和可靠性分析,从而显著提高飞行器设计水平。但是,由于“所有模型都是真实物理过程的近似”,在应用高保真模型进行飞行器设计之前,必须首先对模型的精度和置信水平进行评估,即模型确认。目前,飞行器高保真模型存在高计算复杂性
学位
中层大气是日地耦合系统中重要的区域,大气重力波在上传的过程中输送热量、质量和动量是中层大气最主要的动力过程,影响着中层大气的环流结构和大气成分。由于重力波的频谱波段很宽,不同卫星探测器有其特定的优越性和局限性,有必要使用多种卫星资料的综合探测手段来研究重力波特征。尤其对于常用的高光谱资料来反演重力波信号必须考虑通道选择问题,以有效提取不同高度处的重力波信号。其次,青藏高原作为大气重力波的重要源地,
学位
航天器姿态与轨道运动的动力学建模与控制方法决定了空间任务的成败,姿轨控制在空间近距离交会对接、目标监视、在轨服务等空间任务中扮演着重要角色,传统将姿态轨道运动分别单独建模、独立控制的模式无法充分考虑平动与转动运动的耦合影响,无法满足某些任务对位姿控制的高效性与高精度的需求。因此,航天器姿轨一体化建模与高效率高精度控制方法,对于航天器近距离操作任务具有重要的理论意义与工程应用价值。本文对航天器姿轨一
学位