【摘 要】
:
软件产品和我们日常的工作生活息息相关,一旦软件中存在缺陷,可能会带来严重后果。由于软件本身是一种逻辑实体,并且软件产品开发过程中往往涉及人员、技术、管理及成本等多方面,缺陷往往难以避免。目前应对缺陷的主流方法是软件测试技术,但随着软件和信息技术服务业的蓬勃发展,软件规模越来越大和软件复杂度越来越高,导致测试资源紧张和测试速度过慢。随着发现缺陷时间点的延长,修复缺陷的代价呈指数级增长,因而尽可能早地
论文部分内容阅读
软件产品和我们日常的工作生活息息相关,一旦软件中存在缺陷,可能会带来严重后果。由于软件本身是一种逻辑实体,并且软件产品开发过程中往往涉及人员、技术、管理及成本等多方面,缺陷往往难以避免。目前应对缺陷的主流方法是软件测试技术,但随着软件和信息技术服务业的蓬勃发展,软件规模越来越大和软件复杂度越来越高,导致测试资源紧张和测试速度过慢。随着发现缺陷时间点的延长,修复缺陷的代价呈指数级增长,因而尽可能早地发现缺陷尤为重要。软件缺陷预测是应对上述问题的一种可行方法,主要是根据历史数据来预测软件模块是否存在缺陷,该技术能提高测试资源分配效率。基于有监督的缺陷预测模型需要当前项目或外部项目的历史数据带有标签。根据训练集的来源不同,有监督的缺陷预测可以分为同项目缺陷预测和跨项目缺陷预测。这两种场景下训练集分别来自于同一个项目的数据和外部其他项目的数据。本论文主要研究基于机器学习的新技术来解决这两种缺陷预测场景所面临的问题,如同项目缺陷预测中的分类不平衡,跨项目缺陷预测中的源项目与目标项目数据集之间的分布差异性,旨在进一步提升缺陷预测的性能。具体研究内容如下:(1)针对类不平衡问题,讨论了类不平衡对大部分基分类器预测性能好坏的具体影响;紧接着,探究了采用代价敏感学习和集成学习是否能提高部分基分类器缺陷预测的性能;然后,结合采样和集成学习,提出了一种基于不平衡率进行策略选择的软件缺陷预测方法,该方法将根据训练集不平衡率值的不同,决定构建缺陷预测模型前是否需要采样,实验结果表明了该方法的有效性。(2)针对源项目与目标项目数据集间存在的分布差异性问题,本文提出了一种标记缺陷严重性的多源跨项目软件缺陷预测方法。它能充分利用跨项目方法的优势,将区别测试集的所有项目的数据整合成训练集,并进行特征取值预处理,使得源项目数据及目标项目数据的各个度量元具有更为接近的取值分布。并在此基础上设计了一种标记缺陷严重程度的方法,定量描述了缺陷实例的缺陷严重程度,细分缺陷严重程度可以提高测试效率,实验结果表明了该方法的有效性。(3)在进行软件缺陷预测任务时,数据集、模型评估、模型应用是关注的重点,据此,设计并实现了软件缺陷预测系统,希望可以分析数据集、评估模型和预测待测实例。本论文扩展了机器学习技术在软件工程领域方向的应用,并给软件缺陷预测提供新的解决方案,对软件质量保障具有重要意义。
其他文献
传统的推荐方法主要是抽取用户或项目的有效特征并利用矩阵分解技术学习用户和项目的隐向量矩阵。这类方法需要用户的显式反馈以及辅助特征,难以扩展至大规模数据,同时会因数据稀疏出现冷启动问题。由于推荐系统中用户和项目的交互数据本质上也可以抽象为非欧几里得空间的图(或网络),因此基于图学习的推荐系统得到了极大的关注。网络表示学习能够自动学习一个将节点映射到保留结构信息的低维稠密空间的函数,将其应用到推荐任务
目标跟踪是近年来计算机视觉的研究热点,已广泛应用于智能交通、智慧医疗和国防科技等领域。但在跟踪过程中存在光照变化、遮挡、尺度变化、目标形变等因素影响了定位的准确程度。随着深度学习浪潮的兴起和数据规模的不断增长,研究学者开始探究结合深度学习的目标跟踪技术。本文建立了融合深度残差网络与核相关滤波的目标跟踪框架,从提高目标定位精度、实现尺度自适应以及长时跟踪这三个方面进行深入探讨和研究。主要成果如下:(
随着网络空间不断扩展,其中传播的信息的可靠性和真实性变得愈发重要,特别是在电子商务方面,这是因为潜在消费者在做出购买决定之前会优先查看在线评论。这些评论可以通过相关网站轻易获取,但由于缺乏对其真实性的验证引发了人们对其可靠性的担忧。此外,一些用户通过发布虚假评论,误导其他用户购买目标产品造成一定经济损失。为了维护网络空间的经济秩序,能够有效地检测出不可靠和虚假的评论具有重要的现实意义。本文从评论数
“互联网+健康”模式的兴起以及移动物联网、云计算、大数据、5G等信息技术与医药行业的深度融合加快医药行业的发展进程,药事服务迅速成为学术界和产业界的研究热点。针对目前药事服务资源增多、服务资源孤岛化碎片式、服务质量不高、用户体验不佳等问题,本文聚焦药事服务场景,通过建立药事服务资源协同认知的关联模型对药企、医院和患者三个主体的药事服务资源进行协同调度,主要研究药企和医院之间药事服务资源协同认知的双
随着“互联网+”概念的提出,在线教育行业迅猛发展。MOOC作为在线教育的主流形式,以其方便快捷、资源丰富的优势而广受大众青睐。然而,MOOC在快速发展的过程中,也面临着一些困难和挑战。虽然MOOC的用户规模庞大,但是在实际的学习过程中,经常会出现学生中途辍学的情况,这限制了MOOC的进一步发展。为了解决MOOC高辍学率问题,深入研究学生的行为数据,并建立相应的分析模型具有重要的现实意义。本文的研究
随着O2O(Online to Offline,线上到线下)网上订餐平台的普及,餐饮外卖行业得到了迅速的发展。外卖成为人们继在家做饭、餐厅堂食外的第三种常规就餐方式。面对不断增长的餐厅外卖市场,O2O网上订餐平台为了提高配送效率,导致的“骑手困境”问题在社会上引发了热议。为了缓解不断增加的订单数量带给骑手团队的压力,各个网上订餐平台提出采用无人机来提高即时外卖的配送效率。当前研究成果中,将无人机与
网络巨大的传播能力和数据易于被复制的特点给数字产品版权安全带来了挑战。非法拷贝严重侵犯了知识产权,阻碍了数字产业经济的发展。在版权保护技术中,数字指纹的应用最为广泛。为了给数字产品选取合适的数字指纹,数字指纹性能评估受到广泛关注。准确的评估结果可以为数字指纹的选取提供依据进而减少经济损失,不准确的评估结果可能会带来巨大的利益损失。数字指纹性能评估研究相对滞后于指纹算法的研究,数字指纹算法设计只是整
网络流量数据是网络运营和网络管控最为关键的参数之一,主要原因是网络流量数据中隐含大量对网络流量工程有深刻指导意义的信息。网络运营、管理、规划以及优化依赖于完整且精确的流量数据,但在现实的网络流量工程中,通过直接测量获得网络的全部流量数据代价高昂,实际操作也是不可行的,尤其是对于大规模的骨干网络环境。一般的解决办法是通过采样部分流量数据,然后利用流量数据估计算法进一步得到完整的流量数据。因此如何高效
在知识经济时代,互联网的迅猛发展推动了数字资源的使用和传播,但由于数字产品本身易于传播的特性,数字产品很容易被泄密,给内容提供商造成损失。为了解决这个问题,数字指纹技术应运而生。通过将唯一的指纹序列秘密地嵌入到每一份分发出去的数字拷贝中,内容提供商可以追踪盗版者,保护数字产品的版权并且维护自身合法利益。目前对于数字指纹技术的研究已经取得了部分进展,但仍然存在一些亟待解决的问题,尤其是抗共谋指纹构造
现如今,大数据技术已经成为了互联网技术中至关重要的一部分,如何运用数据分析方法挖掘出数据背后的价值是大数据技术的核心问题。与此同时,数据的安全分发问题显得尤为重要,而关系型数据库作为一种重要的数据存储手段,它在分发时也面临着种种挑战。关系型数据库在分发时容易发生泄密,如何在关系型数据库发生泄密后对泄密者进行溯源追踪成为了研究重点。针对关系型数据库分发后可能出现的泄密问题,本文提出了两种分别适用于数