中文文档自动摘要技术

被引量 : 0次 | 上传用户:yue_pan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会是一个信息社会,随着计算机的普及以及互联网的迅猛发展,每天都有大量信息以电子文档的形式出现在人们面前。如何在海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。实际上,人们根本无法通过阅读所有的电子资料来获得他们需要的信息,迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩,而自动摘要技术正是解决这一难题的有力工具之一。 自动摘要是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然评议篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文档摘要的软件,从而提高信息检索、传播的效率。自动摘要具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。因此自动摘要技术和信息提取技术还有一定方面的区别,它没有预先规定目标的特性。需要对多种多样的内容进行分析和处理。 所谓自动摘要就是利用计算机自动地从原始文献中提取文摘,文摘是可以准确全面地反映某一文献中心内容的简洁连贯的短文。现有的自动摘要方法概括为自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘等四种主要的自动摘要方法。 本文设计的中文自动摘要系统采用自动摘录原文中旬子生成摘录性摘要的方法,它将文本视为句子的线性序列,将句子视为词的线性序列。然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出。系统基于.NET框架开发实现,使用了SQL Server 2000数据库。该系统直接利用计算机进行文章摘要的自动生成,要实现的功能就是给定一个文档后,经过统计分析,给出文档的摘要句并依照原文顺序依次输出。系统力求摘要句抓住原文的核心内容,语句连贯,不遗漏主题。 系统主要分为文本预处理、分词、统计分析、提取摘要、输出摘要五个功能模块,其中用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和
其他文献
CFG桩复合地基已经广泛应用于多种土质条件下各种建筑工程中,并取得了巨大的经济效益和社会效益.但是,相关的计算理论和设计方法还有待完善。本文主要在以下几个方面作了研究:
民国时期,杭州素食极富特色。因经济原因,下层市民多以素食为主;僧尼和道士形成的庞大人群,也延续着上千年来的素食习惯;民间的宗教信仰者和修行者的素食已经成为一种自觉。
智能交通系统是当前国际道路交通和运输科技发展的前沿。作为智能交通系统重要组成部分的车载监控系统成为研究热点。基于GPS/GPRS的车辆监控系统就是以GPS作为空间定位手段、
传统意义上的意识形态是特定传统价值环境的产物,而在全球化与网络化的视域下,意识形态的形成主体、场域、路径和载体都发生了明显的改变。对全球化和网络化下的意识形态进行
饮食文化是江苏地方文化的重要组成部分,应当成为江苏文化产业发展的关注点。就现实而言,江苏已有的一些饮食文化创意活动与成果,还不足以使其形成一个产业。饮食业的文化创
<正>养殖过程中当气候、水环境发生突变,或者由于人为操作不当造成虾池的理化因子发生巨大改变,南美白对虾处于应激状态,生理功能下降,免疫抗病力急剧降低,表现为虾体
眼前的这个中年男人,鬓角已经花白,不过整齐的着装,斯文的眼镜,都彰显出一股令人难以抵挡的气度,儒雅、成熟的男性魅力在他身上淋漓尽致,我们不用翻旧照片依然能从他的外表想
特征抽取是模式识别研究的最基本问题之一。对于图像识别而言,抽取有效的图像特征是完成识别任务的关键。本文提出的相关投影分析,包括典型相关分析、广义典型相关分析和偏最小
已有研究发现计时训练能够提高时间知觉能力。本研究采用时间两分法任务对1秒以上及以下两种范围的时间知觉机制进行研究,结果表明在1秒以下的短时距任务中,音乐组被试的主观
当代社会正经历着一场深刻的变革,即从传统的生产型社会转变为消费型社会,消费文化从社会的边缘文化登上了主流文化的舞台,消费活动对社会建构的影响力日益渗透到城市生活的