论文部分内容阅读
互联网的普及带来了网络电子期刊文献的剧增,这给研究人员(尤其是初级研究人员)高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此,如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题,它可以实现对同一主题的多篇文献的汇总和压缩,通过提供一个简洁、全面的文摘,来减少研究人员阅读文献的时间并避免信息超载的发生。为了对研究人员所关心领域的相关文献进行概述,本文在现有的多文档文摘技术的基础之上,研究了基于引用聚类的多文档自动文摘技术,着重在引用聚类和文摘生成的研究。在引用聚类部分,基于向量空间模型,通过采用不同的文本表示方式和文本相似度计算方法,得到了引用聚类的六种聚类指标,即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上,根据文献的引用位置与其主题间的相关性特点,提出了一种基于引用位置距离的聚类评价方法,并基于该方法对六种聚类指标的聚类效果进行了比较。引用聚类的目的是为了对与研究人员信息需求相关的多篇文献按照主题的相似程度进行分组管理,为之后的研究做铺垫。在文摘生成部分,为了对主题簇中多篇文献的主要内容进行浓缩、提炼,采用不同的多文档文摘技术(LexRank、Query Sensitive LexRank、MMR以及LexRankMMR),根据句子的重要程度,从每个簇的候选句子集中抽取重要性高的句子生成不同长度的段落以对每个簇中的多篇文献进行概括描述。之后通过实验对生成段落的质量以及由生成段落组成的文摘的质量进行了评价。