论文部分内容阅读
随着网络上电子信息的剧增,如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述,它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因此,自动文摘逐渐成为近年来自然语言处理领域的一个研究热点。本文首先介绍文摘的概念、自动文摘的国内外研究现状及研究方法。然后针对基于LexRank算法的文摘抽取存在的优缺点进行了讨论分析,提出了一种新的基于子主题划分和句子特征的中文文档自动文摘方法:①将中文文档表示为以句子为顶点,句子之间的相似度为边权值的无向加权图结构。然后得到其最大生成树,并在最大生成树上采用改进的K-means算法完成聚类,得到的每个子类代表一个子主题。对文档进行子主题划分可以解决摘要的低主题覆盖率,得到更全面的文摘;②在每个子主题内,句子权重由LexRank算法得到的句子显著度与句子特征的得分共同衡量,例如句子的长度、位置、标题词汇、指示性短语、句子结构等,从而得到更加准确和全面的句子权重;③在抽取文摘前,首先对子主题按照重要度由高到低进行排序,然后按照压缩率依次从每个子主题中抽取当前权重最高的句子放入文摘句集合中。每当抽取一个文摘句后,就对该子主题中其他句子进行权重重置计算,以避免下次重复抽取相似度较高的句子。这样不仅可以使文摘较全面的表达文档的重要主题,而且可以减少文摘的冗余。最后使用哈尔滨工业大学社会计算与信息检索研究中心提供的单文档自动文摘语料库,对三种不同的自动文摘方法进行了对比。第一种是本文提出的方法,第二种是基于LexRank算法的文摘抽取方法,第三种是基于句子特征和LexRank算法的方法。实验表明本文提出的方法在准确率、召回率、F-measure和ROUGE指标上均优于其他两种方法,能够得到质量更高的文摘。