论文部分内容阅读
文档的自动文摘是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。在数量庞大的网页中浏览自己需要的内容,会花掉很多时间,而用户关心的只是其中的一小部分。通过搜索引擎能帮助用户获得所有与主题相关的页面,但返回的页面太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需要的信息。网页自动文摘技术研究的目标正是力求解决这一问题,直接给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。基于句子抽取的方法是一个历史悠久、简单有效且目前仍然被广泛使用的自动文摘方法。这种方法是利用统计学的方法或者通过启发式的方法从原文中抽取句子,然后按照长度要求将这些句子有机结合起来形成一篇文摘,使其尽可能多地保留原文中的信息。本文研究的重点是基于句子抽取的单篇中文网页自动摘要的几个关键技术。包括网页预处理、挖掘关键词串、句子权重的计算等。在摘要分析之前,需要对网页文件做预处理。在一篇HTML文档中,有很多和页面正文内容无关的语句,需要将它们过滤掉。使摘要分析的时候可以缩小扫描范围,而且得到更准确的正文内容。挖掘关键词串在摘要过程中起着重要的作用。本文提出用频繁序列挖掘的方法提取关键词串。首先用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为关键字串。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。传统的摘要侯选句子权值计算采用线性插值的计算方法,本文对传统的算法进行改进,加入了句子有效测度值和句子与标题编辑距离相似度的影响因子,以获得与文本主题更相关的摘要候选句。实验表明,此种摘要候选句的选取能很好的反应文本的主题。本文结合了前面提到的各项技术,设计了基于多种特征的中文网页的自动摘要系统。实验结果表明:本系统在对中文网页内容判断和摘要可读性,都优于目前一般网页的自动摘要设计。