基于邮件列表的软件问答信息抽取工具的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：tffx7677

【摘要】

：

软件复用可以有效地减少项目开发中的重复劳动。近年来，随着软件复用技术的逐渐成熟以及Internet上开源软件的逐渐增多，软件开发人员在项目开发的过程中越来越多地复用开源软件

【作者】

：

金庸

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2014年期

【关键词】

：

开源软件软件复用信息抽取程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

软件复用可以有效地减少项目开发中的重复劳动。近年来，随着软件复用技术的逐渐成熟以及Internet上开源软件的逐渐增多，软件开发人员在项目开发的过程中越来越多地复用开源软件。开源项目通常会提供诸如用户手册、FAQ页面、邮件列表等文档来帮助用户更好地理解和使用开源项目。其中邮件列表中蕴含丰富的软件问答信息，但由于邮件的数量巨大，邮件内容组织繁杂等因素使得其不易于被阅读和浏览。通过对Apache上知名开源项目的调研发现，邮件中的软件问答信息有着内容混杂、问题不明确、答案定位困难等问题，开发人员在查询邮件中的软件问答信息时会花费大量的时间和精力。为此，需要一个自动化的邮件问答信息分析、抽取机制，帮助开发人员高效地获取与开源项目相关的问答信息。基于上述目标，本文对如何获取开源项目归档邮件、如何对开源项目邮件内容标注分类、如何抽取邮件问题信息以及如何抽取邮件答案信息四个问题进行了分析研究，进而设计并实现了一种基于开源软件邮件列表的软件问答信息抽取方案，该方案包括：　　⑴从开源项目的官方网站抓取项目邮件归档文件，解析邮件归档文件并将邮件组织成会话形式。开源项目的开发邮件或者用户邮件通常以邮件归档的形式保存，并在其官网上发布链接地址。从网站上抓取下来的邮件归档文件需要进行解析后按照讨论的主题组织成会话形式，一个邮件会话中整合了对特定提问邮件的回复。由于开源软件的归档邮件通常以mbox文件格式存储，本文实现了一个mbox文件解析器以解析出邮件并将邮件组织成会话形式。　　⑵实现了基于解析的邮件内容分类器，对开源项目邮件的内容进行分类。经过调研发现，开源项目的邮件中通常会包含自然语言文本、代码片段、异常文本信息、邮件引用、冗余文本等多类型的内容。本文将邮件内容分为代码片段、异常信息、邮件引用、冗余文本和正文文本等五种类别，方便进一步分析、抽取邮件中的问答信息。本文总结了邮件内容的特点，利用解析的方法对邮件内容进行分类处理。　　⑶提出了一种基于序列模式挖掘的问题句式挖掘方法。在邮件会话中，人们通常会关注发件人阐述自己问题的问题句。由于邮件文本的非正式性，问题句并不一定以疑问标点结尾，并且问题可能以陈述句式提出，因此，传统的基于疑问词以及疑问标点的方法去抽取问题句的效果不佳。本文采用数据挖掘中的序列模式挖掘方法，使用改进的PrefixSpan算法从标注的数据中挖掘常见的问题句的模式，用模式匹配的方法找出提问邮件中的问题句，并与之前抽取的代码和异常信息结合，组成邮件的问题信息。　　⑷采用基于内容特征和非内容特征相结合的方法从邮件会话中定位答案信息。内容特征方面，本文工具使用文本检索中通常使用的文本余弦相似度和字词匹配等方法来定位答案信息，另外，在邮件内容预处理阶段标注出的代码元素及邮件内容引用等特征也被加入到答案信息的度量中;非内容特征方面，本文工具统计了邮件作者的信息（发件数，回复数，是否为开发人员等）以衡量邮件作者的权威度，同时将邮件在会话中的位置以及提问作者对答复邮件的态度也作为答案信息的度量特征。　　⑸本文设计并实现了一个基于邮件列表的软件问答信息抽取工具。本文对该工具的设计和实现进行了详细的介绍，对工具中的技术难点、核心算法及关键模块进行了详细的描述。最后本文以Lucene为例，通过实验验证了本文工具的有效性和合理性。

其他文献

虚拟现实环境中矢量图元的表示与编辑

矢量图元在虚拟现实系统中具有十分重要的意义。矢量图图元主要包括点、线、多边形以及由这三种图元复合构成的复杂图元，虚拟场景下，需要将这些图元分别表示编辑。矢量的编辑表

学位

虚拟现实矢量图图元生成三维场景绘制地理矢量格式自适应插值算法

基于小波域的HMT模型在火焰图像处理方面的应用

小波变换理论作为一种新兴的时(空)—频域分析理论,在被用于图像处理时,具有其它信号处理手段不具有的优越性.其中小波理论中的多分辨分析更加符合人类的视觉机制,与计算机视

学位

小波变换马尔可夫树模型图像去噪图像分割

基于统计的人耳识别

人耳具有结构稳定丰富、不受面部表情的影响、更容易采集、更容易为人接受、不容易欺骗等优点,因此人耳识别正在成为生物特征识别领域中的又一热点.目前人耳识别正处于起步阶

学位

人耳识别动态轮廓线主分量分析线性判别分析独立分量分析

基于VRML的多晶体晶粒三维形貌仿真及可视化研究

该文基于VRM L实现了多晶体晶粒三维形貌仿真结果可视化.首先,对凝固组织微观模拟的各种方法进行了探讨,以寻求合理的物理数学模型;其次,将确定性模拟方法和随机性模拟方法相

学位

虚拟现实建模语言多晶体微观组织面向对象三维建模仿真模型可视化

汉英EBMT中实例粒度的研究

基于实例的机器翻译(EBMT)系统在特定领域下可以高效地生成准确的译文,并且翻译知识可以自动获取,系统构建周期短.所以研究基于实例的机器翻译模型对基于语料库的机器翻译方

学位

翻译实例粒度计算分类双语语料库

基于内容的视频聚类及检索研究

视频数据通常有两个层次:镜头和场景.一个镜头被定义为一些连续的帧,表达了在时间上和空间上连续的内容.一个场景被定义为一些内容上相关的镜头的集合.把镜头通过聚类的方法

学位

视频聚类镜头相似度基于内容的视频检索视频数据时空切片视频场景

透明进程间通信协议在集群通信中的应用研究

集群系统是当前大数据计算、云计算等实现过程中必不可少的环节之一，其内部节点间通信时长在很大程度上决定集群整体的并行处理能力。透明进程间通信协议TIPC专为集群系统开发

学位

集群系统通信协议网络拓扑带宽利用率

多Agent间通信机制研究

作为分布式人工智能研究领域的一个热点,主体技术提供了一种新的计算和问题求解规范.该文对多主体系统平台结构及多主体系统平台中主体间的通信机制进行了较深入的研究,并将

学位

主体多主体系统通信机制主体通信语言

高速电缆遥传系统接收器的设计

随着测井技术向成像化和组合化方向发展,各种新型测井仪器被广泛使用,传统铠装电缆100kHz左右的窄带宽已成为测井系统的瓶颈,而目前没有性能更好的电缆使用,如何在如此的窄带

学位

高速电缆遥传系统接收器正交频分复用同步均衡

关联规则挖掘及其在网络入侵检测中的应用研究

该文深入研究了已有的基于数据挖掘技术的网络入侵检测中的关联规则算法,发现算法中存在以下不足之处…虽然关联规则为检测网络数据中的潜在关系提供了有效的机制,可发现未知

学位

关联规则入侵检测数据挖掘网络安全敏感性

基于邮件列表的软件问答信息抽取工具的设计与实现

与本文相关的学术论文