基于统计语言模型与多目标优化算法推荐相似缺陷报告

来源 :南京大学 | 被引量 : 0次 | 上传用户:panxihuanhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在软件开发过程中,开发人员会收到并处理用户提交的大量缺陷报告。为了提高开发人员处理缺陷报告效率,对于一份查询缺陷报告,本文旨在对其推荐相似缺陷报告进行研究,以供开发人员参考修复缺陷。若修复缺陷报告中问题涉及到的相同源代码文件数目超过一半,则称这些缺陷报告为相似缺陷报告。历史研究工作采用基于信息检索的自然语言处理算法,通过计算相似度对缺陷报告推荐相似缺陷报告。本文发现这些方法均返回给开发人员一个缺陷报告的推荐列表,但是往往推荐列表中的缺陷报告和当前缺陷报告相关程度不是很大,而且数目较多,开发人员需要依次排查推荐列表中缺陷报告所对应的源代码文件,工作量很大。由于推荐精度不够高,现有方法会浪费开发人员的时间,导致修复缺陷效率的低下。此外,一些缺陷报告缺乏相关程度较大的相似缺陷报告,对这类推荐相似缺陷报告意义不大。鉴于以上观察,本文的研究内容是基于统计语言模型与多目标优化算法推荐相似缺陷报告。本文包括缺陷报告处理中的两项研究工作,分别是:首先,基于n-gram模型计算缺陷报告出现的概率值大小,根据概率值从大到小对缺陷报告排序;其次,按照生成的排序列表顺序,对每份缺陷报告基于多目标优化算法NSGA-Ⅱ推荐相似缺陷报告。本文所做的主要贡献有:1)基于统计语言模型对缺陷报告排序即首先对缺陷报告进行自然语言处理,然后对其建立n-gram模型,进而基于历史缺陷报告对每份缺陷报告计算其出现概率的值,然后根据概率值从大到小对缺陷报告进行排序,并返回缺陷报告排序列表给开发人员。2)基于多目标优化算法,给排序后的缺陷报告推荐相似缺陷报告,即基于多目标优化算法NSGA-II推荐相似缺陷报告,采用TF-IDF和Word Embedding相似度之和作为适应值函数,从历史缺陷报告中找出相似的缺陷报告。在推荐尽可能少的相似缺陷报告情况下,使得缺陷报告间的相似度尽可能大。其中缺陷报告的相似度包括词法相似度(TF-IDF相似度)和语义相似度(Word Embedding 相似度)。3)本文在 AspectJ、Birt、Eclipse UI、JDT、SWT 和 Tomcat 六个开源项目的数据集上进行实验,并采用Top@k准确率、平均准确率均值、平均序位倒数均值三种评价指标对实验结果进行评价。实验结果表明:本文采用的多目标优化算法NSGA-Ⅱ与采用单目标算法相比,本文方法在Top@1准确率、平均准确率均值、平均序位倒数均值上分别比Yang方法提高125.5%、67.7%、62.75%。按照采用n-gram模型返回的排序列表顺序推荐和未采用相比,在Top@1准确率、Top@5准确率、Top@10准确率、MAP、MRR评价指标上提高的均值分别为 44.5%、36.6%、26.4%、39.2%、40.4%。
其他文献
党内政治文化是全面从严治党纵深发展的重要一环,发展积极健康的党内政治文化能够全面净化党内生态,规范党内政治生活,是保持党的先进性和纯洁性的重要基础。培育积极健康的
合理使用是为了社会公共利益对著作权进行适当限制的制度,随着著作权不断的扩张和信息传播技术快速发展,对合理使用的需求越来越来越大,我国合理使用制度采取的是列举式封闭
语气词为汉语表情达意起到了很好的作用,却为外国学生习得汉语带来一些困难,成为了印尼学生习得汉语的难点之一。我们认为尽早研究并解决其中的偏误问题十分必要。本文对中高
巴基斯坦的性别平等和妇女赋权问题已经成为巴基斯坦国内外共同关注的焦点。遗憾的是,这个焦点目前主要集中在巴基斯坦社会中妇女的必要权利方面。联合国妇女署(UN Women)和
民兵制是独具特色的军事制度,在英属北美殖民地创立之初,便是全民皆兵的准军事社会,而宾夕法尼亚在13块殖民地中最晚确立民兵制度。本文以北美殖民地时期宾夕法尼亚为例,结合
晋语是北方方言中一种比较特殊的方言,在语音、词汇及语法上都与北方方言有所差别,一直以来广泛受到学界的关注。阳泉方言作为晋语的一个方言点,既具备晋语的典型特征,同时也
在传统的种子含水量检测领域,根据《国际种子检测规程》与我国的《农作物种子检验规程》主要的检测技术包括:高温烘干检测、电子水份仪速测法、甲苯蒸馏法、卡尔·费休法等。这些方法或多或少存在破坏种子结构、不能整体检测、时间长、接触检测、不能实时反映等问题。本文着眼于电磁感应原理在种子含水量检测中的应用。首次提出了一种基于电磁感应原理的单激励双接收的三线圈结构种子含水量的检测方法。以种子的相对介电常数为中间
在全党开展党史学习教育,是党中央作出的重大决策部署,是事关全局和长远的重大战略安排。2021年3月24日,河南省人大常委会机关党组理论学习中心组召开集体学习会议,深入学习贯彻习近平总书记在党史学习教育动员大会上的重要讲话精神,围绕党史学习教育进行专题研讨。省委副秘书长、办公厅主任,省人大常委会秘书长、机关党组书记吉炳伟主持会议并讲话。省人大常委会副秘书长、办公厅主任、机关党组副书记杨汝北与机关党组理论学习中心组成员张晓林、李学义、高欣、吴文毅作现场交流发言,李经超、黄新、王松钊、刘晓保作书面交流发言。秦高
减数分裂是有性生殖中的关键环节,减数分裂不仅保持物种遗传物质的稳定传递,同时通过同源染色体非姐妹染色单体的交叉互换产生基因重组,增强了群体的遗传多样性,是生物适应和
超光速现象的研究长达半个多世纪,实现这一现象主要有两种方式,一种是反常色散介质中的光学调控;另一种是利用电子线路构造反常色散区域实现超光速现象。后者早在1997年由Chiao等人观测到脉冲在RC振荡电路负时延区域中,信号具有超前现象。首先,本篇论文中将通过电子线路实验探究不同的信号脉冲通过RLC振荡电路负群时延区域,借用量子临界现象中保真度的概念,来研究信号在反常色散区的传播规律,并引出临界级联个