论文部分内容阅读
随着Internet的迅速发展,Web上的各种数据急剧增加,网络已经成为数据的仓库和知识的来源。用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而信息检索和自动摘要是目前解决这一难题的关键技术。自动摘要技术将文档内容以简洁精练的形式呈现出来,是信息检索技术发展到一定程度的自然延伸。目前,搜索引擎作为信息检索的一个重要工具,往往只是简单截取关键字所在的部分句子或段落作为摘要提供给用户,造成用户在浏览搜索结果时无法把握整个网页的内容提要,进而影响检索效率。而传统基于词频统计的摘要方法又主要针对纯文本文档,且单纯考虑文本的表层特征,缺乏对文档的语义分析,生成的文摘质量不高,因此也难以直接适用于Web文档摘要的自动提取。本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于中文科技文献搜索引擎的Web文档的自动摘要方法,并实际开发出一个Web文档自动摘要系统。该系统可作为搜索引擎的辅助检索,摘要内容应满足完备性和概括性,并且具备一定连贯性。为此,本文在综合分析Web页面信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了Web页面信息特征,提出了Web页面原文摘要的抽取方法及一种适合于网页信息的小标题提取算法,探讨了摘要生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文Web网页自动摘要系统模型,并对实际的网页进行了测试。测试结果表明:对网页文档的摘要能够满足完备性和概括性的要求,反映文档的主要内容。说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,部分摘要的连贯性不是很好。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。