基于开发者社交网络和排序学习的缺陷报告分派及定位

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sdfcasdvgase
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今大型开源软件项目如Tomcat、Eclipse和AspectJ等都配置了功能强大的缺陷跟踪系统,该系统能够使世界各地的开发人员共同协作来修复某一软件缺陷,然而缺陷跟踪系统在实际运行过程中每天都会接收到大量的缺陷报告,倘若完全采用人工的方式,将缺陷报告分派给某个开发者,然后该开发者手动查找相应的源代码文件进行缺陷修复,这一流程将会耗费大量的人力和时间。因此,如何能让缺陷报告实现自动分派以及自动定位到缺陷文件是一项非常具有意义且充满挑战的任务,这对于改善大型开源软件项目的维护流程至关重要。目前,相关研究人员根据缺陷报告和源文件的特点提出了很多不同的缺陷分派以及缺陷定位方法,但是这些方法并没有考虑到不同开发者之间的协作关系、个人的能力水平和业界影响力,并且忽略了缺陷报告本身的深层语义信息。针对以上问题,本文提出了一种基于开发者社交网络的缺陷报告分派方法和基于排序学习的缺陷定位方法,主要工作如下:首先,提取缺陷跟踪系统的原始数据信息,借助该信息,根据开发者对同一缺陷的评论关系建立一个关于开发者的社交网络,并通过一定的算法将网络中具有相同修复经验的开发人员划分到一个社区,然后,根据开发者的历史修复经验和其在网络节点中的影响力对所有开发者的能力进行评估。实验表明,开发者的历史修复经验对开发者能力评估的贡献较大。最后,使用之前提取的原始数据信息建立一个缺陷报告分派模型,当新缺陷报告到来后,通过该模型预测分派给哪个社区,然后推荐该社区中能力排名最高的开发者来进行缺陷的修复。当为缺陷报告推荐合适的开发者以后,下一步的工作便是帮助开发者定位到与该缺陷报告的描述最相关的可疑源代码文件列表,以辅助其进行缺陷排查和修复。本文从缺陷报告和源代码的文本相似度、缺陷报告的修复历史、堆栈跟踪信息、API(Application Programming Interface)说明文档等多个方面进行特征值提取,并结合词向量计算工具Word2Vec挖掘缺陷报告的深层语义信息从而弥补缺陷报告和源文件的语义失配问题。此外针对Word2Vec在自然语言和源代码两者不同的语义环境下训练出现的偏差问题,提出了一种洗牌算法将语义相近的自然语言和程序语言随机混合到同一文档中生成统一的语义环境,实验表明该算法对模型预测准确度有较大提升。最后,将上述提取的特征值通过SVM-Rank算法的计算返回一个排序的可疑源文件修复列表供开发人员进行排查并修复。
其他文献
卵孢小奥德蘑(Oudemansiella raphanipes)隶属于担子菌门(Basidiomycota),伞菌纲(Agaricomycetes),蘑菇目(Agaricales),膨瑚菌科(Physalacriaceae),小奥德蘑属(Oudemansiella),是一种食药兼用菌。本研究对卵孢小奥德蘑子实体的化学成分进行了分离,纯化和鉴定,并对其粗提物的生物活性进行了初步分析。采用多种色谱手段
生物机器人是生物医学、计算机科学、电子学和无线传感技术高度发展与相互融合的产物,是新兴交叉学科中发展最活跃的领域之一。本课题在前期研究的基础上,进一步研制鲤鱼小脑和延脑迷叶脑图谱,对脑运动神经核团与运动行为之间的对应关系进行研究,并对小脑和延脑迷叶运动区域细胞构筑进行了试验研究。在鲤鱼机器人运动控制方面,本研究根据鲤鱼骨性特征建立了颅脑的三维坐标系;自主研制了一种适用于空间位置测量的组合式立体水迷
细叶百合是百合科百合属多年生草本植物,具观赏、食用和药用价值。其分布较广,具有较强的抗性,是优良的野生种质资源。NAC转录因子家族是高等植物特有的转录因子,其不仅在植物生长发育中发挥调控作用,同时还参与植物对生物和非生物胁迫的响应。以细叶百合为研究材料,克隆了细叶百合LpNAC17基因并对其序列进行生物信息学分析;利用荧光实时定量分析LpNAC17基因在不同胁迫条件下不同组织部位的时空表达情况;构
我国作为一个农业大国,农业非点源污染对总氮、总磷的贡献率大于生活污水和工业废水,是造成水体富营养化的主要原因。稻田地处水资源丰富的地区,栽植耗水量约占农业用水总量的60-70%,所产生的水流失引起邻近水体的富营养化等环境问题将不容忽视。IPCC第五次评估报告认为,21世纪全球极端气候事件发生的可能性呈现增加和扩大的趋势;相比发达国家,极端降雨事件的发生可能对发展中国家的农田生态环境产生更严重的破坏
近年,中国高铁事业正值蓬勃发展,高铁建成和在建规模巨大,高铁路线遍布大江南北,同时高铁运行的最高速度也在继续不断刷新新高。高铁路基作为高铁的轨道基础,是保障高铁运行的重要因素之一,保证路基具有足够强度和应有的稳定性就显得十分重要。由于路基长期承受高铁列车动荷载和静荷载影响,同时完全暴露在自然环境中,在运营一定时间后难免出现各种缺陷,如裂缝和塌陷等。因此,需要对路基进行检测,判断路基的危害程度,及时
近年来,气敏传感器已经在环境保护、工业生产及安全检测等领域发挥了出色的作用,作为应用最为广泛的半导体气敏传感器之一,氧化锡气敏传感器一直以来都是气敏传感器领域研究的重点。由于氧化锡气敏传感器属于表面电阻控制型气敏元件,通过增大比表面积可有效提高其气敏性能,因此可利用生物模板法制备多孔氧化锡材料以增强其气敏性能。本文主要针对乙醇及正丁醇两种气体,以氧化锡材料为主要研究对象,利用生物模板法,重点围绕着
传统振荡水柱波浪能发电装置利用透平发电机发电,长时间工作在海边潮湿环境中,装置寿命较短,维修困难,难以满足无线传感网对持久稳定电力的需求。本文提出了一种基于介电弹性
从1845年惠斯登提出并制作了略具雏形的直线电机至今,直线电机的发展已经有170多年的历史;其中同步直线电机由于具有推力大,可靠性和效率高等特点,近年来已广泛应用于轨道交通业、工业、建筑等各个行业。但受限于磁性材料的发展,直线同步电机的性能很难在原有基础上大幅度提高,迫切需要一种体积小、剩磁大的新型磁体替代传统的次级磁体,来提高气隙磁场强度,以达到提升电机的性能的目的。超导体能够利用其磁化过程中的
2,5-呋喃二甲酸(FDCA)是一种合成生物基高性能聚酯、聚酰胺、环氧树脂的生物基单体,拥有广阔的市场前景,但当前FDCA的合成仍处于实验室研究阶段,未能实现大规模工业化生产。本文从当前研究最深入、最有希望实现FDCA工业化合成的5-羟甲基糠醛(HMF)路线出发,为避免不稳定中间体HMF的分离提纯问题,从溶剂角度入手,设计了从原料果糖到目标产物FDCA的“一锅两步法”合成体系,即以二甲基亚砜(DM
低碳烯烃的来源除了传统的石油路线,包括石脑油的蒸汽裂解等,还包括甲醇制备低碳烯烃的反应。该反应符合我国多煤、少油、少气的特殊能源结构,对改善我国化工产业的未来格局具有非常重大的意义。以ZSM-5分子筛催化的甲醇制丙烯(MTP)反应,在工业上会采取回炼(将反应产物循环使用)的方式来提高主产物中乙烯和丙烯的产量。与之对应,学术界通过烃类与甲醇共进料的方式来研究回炼。目前,学者们普遍致力于研究共进料后烃