论文部分内容阅读
现代社会是一个信息社会,随着计算机的普及以及互联网的迅猛发展,每天都有大量信息以电子文档的形式出现在人们面前。如何在海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。实际上,人们根本无法通过阅读所有的电子资料来获得他们需要的信息,迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩,而自动摘要技术正是解决这一难题的有力工具之一。 自动摘要是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然评议篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文档摘要的软件,从而提高信息检索、传播的效率。自动摘要具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。因此自动摘要技术和信息提取技术还有一定方面的区别,它没有预先规定目标的特性。需要对多种多样的内容进行分析和处理。 所谓自动摘要就是利用计算机自动地从原始文献中提取文摘,文摘是可以准确全面地反映某一文献中心内容的简洁连贯的短文。现有的自动摘要方法概括为自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘等四种主要的自动摘要方法。 本文设计的中文自动摘要系统采用自动摘录原文中旬子生成摘录性摘要的方法,它将文本视为句子的线性序列,将句子视为词的线性序列。然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出。系统基于.NET框架开发实现,使用了SQL Server 2000数据库。该系统直接利用计算机进行文章摘要的自动生成,要实现的功能就是给定一个文档后,经过统计分析,给出文档的摘要句并依照原文顺序依次输出。系统力求摘要句抓住原文的核心内容,语句连贯,不遗漏主题。 系统主要分为文本预处理、分词、统计分析、提取摘要、输出摘要五个功能模块,其中用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和