基于排序学习的跨项目软件缺陷预测方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:jcd041991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在有关软件缺陷预测(Software Defect Prediction, SDP)的研究中,基于跨项目的缺陷预测问题逐渐成为研究的重心。大多数缺陷预测的研究都将该问题作为二分类问题或回归问题进行讨论。事实上,在缺陷预测的现实场景中,开发者在大多数情况下并不需要每一个软件实体的具体预测结果,而是让自动缺陷预测工具找出项目中可能具有高风险的文件,对其进行定位修复即可。
  本文借鉴推荐系统中经典的排序学习算法,设计了一种基于跨项目缺陷预测的排序学习框架,这种框架能够匹配缺陷预测的数据集,对其进行标签转化、重采样等预处理,最后选择合适的排序学习算法及排序结果优化方法训练出最优的模型,推荐top-k高风险文档反馈给开发者。为了验证针对本框架的有效性,本文主要从四个方面设计了实验:
  (1)对于数据构造不匹配的问题,本文首先设定了“找出高风险文件”的单查询场景。针对该场景的问题,对数据集中缺陷个数标签进行了统计。使用折叠高斯分布拟合数据集中缺陷分布情况,并依据3σ原则进行相关度划分。
  (2)对缺陷预测中常常会出现的数据不平衡问题,本文设计了一种混合采样方法SMOTE-PENN。实验对比了随机上采样,等六种经典重采样方法,本文提出的算法能够在各项评价指标中取得最高的得分。同时,本文讨论了重采样计算距离所需的7种度量方法,实验发现标准化欧氏距离在软件缺陷预测场景下的度量效果最优。
  (3)在排序学习方法的选择上,本文选择了RankNet等5种排序学习的经典方法,详细讨论了每种方法的特点,并在NDCG指标下对每种模型的性能进行评价。实验发现,ListNet和RankNet在本文的框架下相较于其他方法能够取得更好的结果。
  同时,我们还对评价指标中k值的变化及排序学习场景进行了讨论。
  (4)在排序结果优化的问题上,本文设计了一种独立于粗排序场景的精化排序方法,对粗排序中具有并列排名的结果进一步细化排序。实验发现,该方法在推荐样本个数较多时,能够显著提高模型的性能。
  下一步,我们将会对数据集进行扩充,更加全面地验证模型效果;选择更多的排序学习算法或设计新的排序学习算法并制定多查询场景以提升模型的健壮性;考虑参数搜索等方法进一步提高模型性能。
其他文献
当前,全球集成电路产业正在步入颠覆性的技术变革时期,我国集成电路产业发展也迎来了重大的发展机遇。然而随着集成电路设计的日益复杂,越来越多的设计厂商开始采用第三方IP(Intellectual Property)核来缩短芯片的研发周期、减少研发费用,但与此同时也带来了安全隐患。如果芯片设计过程中使用的第三方IP核中嵌入了具有恶意功能的硬件木马,则会对使用该芯片的金融、国防等诸多关键领域造成严重影响。
学位
在通信对抗和电子侦察领域,低频辐射源的识别是一个重要的研究课题。即使已知辐射源型号以及发射信号类型,也很难实现信号的完全复制。这是因为构成辐射源的各类元器件之间不可避免地存在着差异。本文研究了低频辐射源的特征提取及分类识别方法,对这一领域进行了有益探索。主要研究内容如下:首先,寻找一个有效的信号处理方法,只有在找到可靠信号处理方法的基础上才能提取到稳定并且具有区分度和辨识度的特征。本文主要研究了局
学位
高频海洋雷达利用垂直极化的电磁波能够沿导电海洋表面绕射的传播特点,可以全天候、超视距、实时地探测大面积海域的表面动力学参数,使其在“全国海洋观测网络”中占据重要地位。由于高频段电磁波波长与低空飞机、舰船、冰山等硬目标尺寸相当,高频海洋雷达在目标探测领域也得到了广泛研究与应用。  天线系统是高频海洋雷达间最具差异的部分。现有高频海洋雷达主要依据接收天线形式的不同分为阵列式和紧凑型两类。阵列式雷达采用
纺织物的表面瑕疵检测是纺织业质量控制中的一个关键环节。传统的人工检测织物疵点的工作方式由于其检测效率低、工人劳动强度大、检测成本高等缺点已经不适合大规模生产以及消费者对产品质量越来越高的要求。基于模式识别、人工智能以及计算机视觉的织物疵点自动化检测技术和方法由于其检测精度高、检测效率高,成本低而替代传统的人工检测是大势所趋。现有织物疵点自动化检测技术各自有不同的优势和局限,学界对该领域新技术的研究
随着国防科技的发展和现代电磁工程应用需求的日益提升,各领域对电磁仿真精度的要求越来越高、对电大目标和复杂结构的仿真需求越来越大,使得电磁场精确模拟面临一个共性问题:计算资源需求越来越高、仿真时间越来越长。这一共性问题给计算电磁学带来了严峻的挑战。尤其是电尺寸的持续增加,使得电磁场精确模拟所需的计算资源呈指数上升。与此同时,国内高性能计算技术的飞速发展和国产超级计算机的迅速崛起为电磁仿真提供了硬件保
学位
TiO2作为一种极具前景的介质材料被应用到薄膜技术中来,引起了国内外研究者的极大兴趣。作为光学膜,TiO2薄膜在可见光区透射率高,折射率大,化学稳定性高、强度大、硬度高,是非常重要的光学膜,己被广泛地应用于抗反射涂层、干涉滤波片、电致变色窗和薄膜光波导。作为电学膜,TiO2薄膜的绝缘性能好,可作为大规模集成电路的保护层。TiO2的介电常数很高,可用于半导体器件MEMS、MOS等的栅介质。随着薄膜科
正交频分复用(OFDM)技术能有效克服无线信道多径衰落的影响,非常适合于下一代高质量、高速率的无线多媒体通信。而采用多发射多接收(MIMO)技术的OFDM系统由于更高的频谱效率受到广泛关注。但是OFDM的实际应用需要谨慎考虑信道估计等重要问题。本论文重点研究了单发射单接收(SISO)和MIMO-OFDM系统的信道估计算法,提高了信道估计的精度。论文创新性成果如下:首先,提出了基于Walsh变换的最
学位
随着图像传感器技术的发展,多传感器图像融合技术应运而生,并广泛应用于军事侦察、医学诊断、遥感、智能机器人等领域.该文详细研究了多传感器图像融合算法,从彩色显示和灰度显示这两个角度对多传感器融合技术进行了泛分析.该研究工作的选题不仅具有重要的理论研究价值,而且具有广泛的实际应用价值.该文的主要工作可总结为以下几个方面:(1)简单叙述了多传感器图像融合技术的主要研究内容,分析了各种图像融合算法,介绍了
支持向量机是当前机器学习领域的研究热点。本文对支持向量机一些算法进行了研究。全文共分五章,如下:第一章概括了支持向量机的两种数学描述—最大间隔描述和平分最近点描述,列出了支持向量机几种常见和流行算法,并指出了他们存在的问题。第二章研究了针对最大间隔描述的支持向量机流行快速算法──SMO算法。总结了SMO算法的原理,用程序实现了SMO算法。经用典型的双螺线问题对算法进行测试,显示:SMO算法运算效率
学位
环形锻件在火车、工程机械、轴承、船舶、石油化工、发电、航空航天、核工业等工业领域应用十分广泛,在其锻造的动态过程中,径向截面形线以及各尺寸数据的在线测量对控制其尺寸精度、减少废品率有着至关重要的作用。然而,环形锻件在锻造时处于高温及高速旋转的动态过程中,且激光扫描仪的扫描角度受限,故需要进行多次扫描。由于多次扫描造成扫描数据量很大,据此测量得到的径向尺寸精度较低。因此,提高环形锻件径向截面尺寸的在
学位