面向Bug分派的数据集约简方法的研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:msdn_sdk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件功能及其开发过程越来越复杂,Bug仓库追踪报告的Bug数量急剧增加。传统的人工判读和分析已经无法适应大规模的Bug数据,越来越多的基于文本分类的自动Bug分派研究应运而生。大多数研究都将Bug报告中的短描述作为文本信息,再在分派模型上进行优化,忽略了可以提供更多信息但同样也会带来更多噪音的长描述。如果数据集质量不高,无论如何优化分派模型也不会达到很好的效果。另一方面,Bug数目巨大,开发人员的时间和人数有限,所以优先修复影响较大的Bug报告,可以将它们带来的损害最小化。然而,Bug报告数据集往往是不平衡的。因此,为了提高Bug仓库中Bug报告的维护和管理,减少人工成本,需要对文本描述信息中包含的噪音多及如何有效识别高影响力Bug报告作进一步研究。考虑到Bug不同其对系统造成的潜在威胁也不同,严重程度越高的Bug报告越应该优先解决。针对数据集规模大、质量低且数据不平衡的现象,本论文对其Bug分派方法进行了研究,主要贡献如下:(1)提出了一种加权优化的Bug分派方法,通过去除冗余特征和噪音样本,在保证权值和二元约束的同时最大化Bug分派的正确率,建立一个高质量的缺陷数据集。本文提出的技术建立在三种特征选择算法和四种实例选择算法的基础上,目的是在训练数据集存在噪声的情况下也能自动准确地进行Bug分派。实验结果表明,本文所提出的基于加权优化的Bug分派方法在几种情况下均能达到较好的训练精度,优化后数据集的正确率比原始训练集提高4%左右。(2)提出了一种基于启发式约简与不平衡处理的高影响力Bug报告识别方法。在数据约简阶段,我们将特征选择和实例选择与遗传算法相结合,通过删除冗余或非信息性的错误报告和词汇,构建规模小质量高的错误报告集合;在不平衡处理阶段,我们通过四种不平衡学习策略来处理错误报告的不平衡分布。实验证明,将数据约简与不平衡学习策略相结合的方法能够有效识别高影响的Bug报告。
其他文献
随着国家"一带一路"倡议的提出,越来越多的企业加大海外投资,寻找新的机会增长点,而海外并购成为企业提升竞争力、提高股东财富效应的有效途径。本文采用事件研究法,对2007-2
<正>到今年3月底,2017/2018市场年度已经过半。上半年度,随着市场化改革的推进,各类主体积极入市收购,玉米购销两旺,由于供给减少和消费增加,玉米供给已由前些年的严重过剩转
在乡村振兴的大背景下,农村社会正发生着翻天覆地的改变,本文在空间生产理论视阈下对农村女性在厨房空间中的性别关系进行了研究,探讨厨房空间的变迁和女性在厨房中的生产活
社交媒体为用户提供了通过共享来实现相互交流的平台,使人们可以摆脱时间和地点的限制,更便捷地进行信息交换和与他人建立社交联系。随着移动通讯技术的飞速发展,社交媒体已经成为大学生日常生活中不可或缺的一部分。值得注意的是,社交媒体是一把双刃剑,它在为学生带来便利的同时,也导致了一系列的负面后果。近年来,大学生对社交媒体使用的依赖现象成为社会广泛关注的话题,甚至引发了关于社交媒体使用的争论。过度地使用社交
管式加热炉具有典型的非线性、多变量、大时滞、强耦合和时变特性,传统的控制策略很难获得理想的控制性能。为此,提出了基于一类多模型的自适应神经网络预测控制方法,首先基
基础教育作为造就人才和提升国民素质的奠基工程,一直是处于较为重要地位,作为任何一个时期的重中之重,而发展基础教育更为迫切的是提高我国师资水平和加强教育队伍的建设。
专用集成电路(Application-Specific Integrated Circuit,ASIC)是针对特殊用户或者特定电子系统的需求而专门设计、制造的集成电路,它一般用在普通商业芯片无法满足需求的地
教堂是信徒与上帝进行心灵沟通,形成心理寄托的空间,不仅仅是提供给人的庇护场所,更是人们触碰空间文化的媒介,因此兼具着精神性和物质性,其氛围的营造既要重视神性又要关注
目的比较不同性别脑梗死患者睡眠质量及中医证候特征。方法将符合研究标准的急性期脑梗死病例按照性别分为男性组和女性组,经常规西药治疗2周后,采用"匹兹堡睡眠质量指数量表
系统研究了基于液压原理图的故障诊断方法,总结了可操作的读图方法和步骤,通过简化液压原理图对系统原理进行分析,针对压力异常、速度异常与动作异常3类故障给出了基于液压原理