基于意图挖掘的缺陷报告摘要技术研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lijie6857272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺陷报告是最重要的软件制品之一,它们记录着各个缺陷的详细信息,在软件的开发和维护过程中发挥着极其重要的作用。目前,软件开源社区基本都拥有自己的缺陷报告平台,用来提出、讨论和解决一系列在软件开发与维护过程中所遇到的缺陷。一篇缺陷报告,通常是由某位开发人员添加,而后有若干开发者添加评论来讨论解决方案。很多缺陷报告中包含几十条开发者的评论信息。由于软件缺陷报告数量快速增长以及开源社区中缺陷报告撰写形式的开放性,开发者们很难高效地在海量冗长杂乱的缺陷报告中查找和提取有用信息。  目前,缺陷报告摘要技术可以一定程度上解决上述问题。在人们阅读缺陷报告时,展示缺陷报告的摘要可以帮助人们迅速地了解该缺陷报告的主要内容,从而提升缺陷报告管理效率。然而当前缺陷报告摘要技术的准确率以及摘要的可读性有待提升。本文旨在通过挖掘缺陷报告文本中的意图来改进当前的摘要技术,主要研究工作包括:  缺陷报告文本的意图分类。本文通过对缺陷报告文本的分析,并结合其他软件制品(如应用评论文本、开发邮件)的意图类别,提出了缺陷报告的意图类别体系。本文标注了2360条缺陷报告句子样本的意图类别,并通过基于语言模式规则和机器学习的意图自动分类算法对文本句进行自动意图分类。实验证明本文所提意图分类算法与之前纯规则算法相比适用性更强,能够以总体60%以上的准确率有效地对缺陷报告文本中的8种意图进行自动分类。  缺陷报告的长文摘要。本文提出了一种基于意图挖掘的缺陷报告长文摘要技术——IBRS,它利用意图分类对原有的BRC摘要技术进行了改进,成功为长篇的缺陷报告提取摘要。本文通过在两种语料上的对比实验证明了IBRS摘要算法的正确率、召回率、F-score以及加权正确率均高于原有的缺陷报告摘要算法,最高达到了5%的提升。  缺陷报告的多文档摘要。缺陷报告库中存在很多描述同一个缺陷的重复缺陷报告。多篇重复缺陷报告能够对某个缺陷进行更全面的描述。人们在查找某个缺陷时,很多时候不仅仅浏览一篇缺陷报告,也会浏览重复的缺陷报告中提供的信息。所以本文针对多篇重复缺陷报告进行了摘要研究,提出了一种Intention-MMR算法。最终通过用户调研的方式进行评估,结果证明针对多篇重复报告的摘要能够更丰富多样地描述某个缺陷。  缺陷报告的摘要工具。该工具综合运用上述研究成果实现了对缺陷报告摘要的提取,并进行可视化展示。另外该工具根据文本的意图类别对摘要内容进行了的重组,将更重要类别的信息聚集、优先展示,从而提高了缺陷报告摘要的可读性。
其他文献
计算机技术和多媒体技术的发展极大地改变了人们的生活和工作方式。视频、音频、图像等媒体形式对人们的生活产生了越来越大的影响。本文所研究的是DirectShow技术在音视频采
在多媒体技术和互联网迅速发展的今天,越来越多的音乐涌现在人们的生活中,随之而来的,面对海量音乐时,人们如何迅速了解音乐的内容,如何迅速从海量音乐中检索音乐,如何高效的管理音
随着计算机网络的飞速发展,网络安全问题日益突出。当前网络安全防护技术大多是静态的安全技术,如路由器过滤、防火墙、漏洞防堵等。静态安全技术对防止系统被非法入侵起到了
随着计算机技术、电子技术的迅速发展,视频监控技术在人们生产生活的各个方面得到了广泛的应用。传统的视频监控技术存在很多局限性,如需要大量的监控人员、报警精确度不高、响
社会的发展使不同业务间的协作越来越重要,互联网的发展和各种标准的应用为业务间的协作提供了物质基础。Web服务作为资源互用、互操作的重要技术,不仅已用于电子商务、电子政
进入21世纪以来,信息化对社会发展的影响日益深刻。随着信息化的快速发展,网络安全的地位也变得越来越重要,一些黑客会以非法的目的攻击、入侵工作网络或在其上搭载着重要的系统
蓬勃发展的Internet给人们带来丰富信息资源的同时也带来了新的问题。由于Web页面的无结构性、Web链接的自由无序和Web规模的急剧膨胀以及Web内容的海量性、多样性与动态性,人
北京大学研发的基于模式的软件过程构造工具集能够利用可复用的过程模式高效的定制适应特定项目需求的过程模型,此模型采用BPEL语言描述,可以在流程引擎的驱动下执行,为软件过程
随着信息技术日益广泛而深入地应用,现在的信息工程越来越庞大复杂,也越来越难以控制,在信息工程建设过程中,合同报表巨多,数据量庞大,并且数据间存在着密切的联系,为了实现监理的“
问答社区已成为一个受大众欢迎的网聚众人智慧的网络交流方式,现有的网络问答社区有百度知道、Yahoo! Answer、爱问知识人、搜搜问答等等。问答社区已经成为现代网络生活中不