基于特征信息提取的中文自动文摘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhouly1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的高速发展,报纸、书籍、科技文献等以文字为载体的信息大量涌现。尤其是在计算机和国际互联网络高速发展的带动下,每天都会有不断涌现的海量信息。为了能从这些海量的信息中快速、准确的找到用户需要的信息,文档的自动摘要处理成为越来越被关注的研究课题。作为自然语言处理领域的一个重要应用,自动文摘涉及到了大量的理论和应用技术。人们对中文自动文摘的研究已经有20多年了,限于相关领域所有的技术水平,自动文摘系统还不能进行完全的自动语法、语义和语境分析,摘要结果还属于指示性摘要范畴。基于目前的研究现状下,采用统计学方法发现文章特征,获取文章特征信息,在此基础上建立一个自动文摘系统,能生成一个简单、准确、全面的摘要,使用户能快速的从海量信息中获取有用的信息。本文结合目前的研究现状,利用统计学知识,考虑文章的体裁、类型,针对文章中出现的特征词的性质进行不同的打分,设计出一个基于特征信息提取的中文自动文摘系统。研究主要包括以下几部分:(1)研究比较了当前自动文摘研究方法,分析了基于统计的方法的可行性及其适用范围;(2)本文提出一种基于特征信息提取的中文自动文摘方法,分析原始文本中的特征词关系和特征,构造向量空间模型;通过计算句子的重要度以及去除文章冗余等方法,获得文摘结果;(3)设计一个基于特征信息提取的中文自动文摘系统;(4)为了验证提出的中文自动文摘方法的可行性与有效性,本文采用内部评测对开发的文摘系统进行评估。分别从国家语委语料库中抽取不同体裁以及不同学科类型的两组语料进行评测,通过对评测结果进行分析,了解基于统计的方法的利与弊,分析基于统计的方法对于文章体裁的不同产生的文摘结果不同的原因,为今后进一步完善文摘系统提供了一条有意义的探索之路。
其他文献
随着硬件设备计算能力的迅速提高以及社会需求的不断变化和增长,嵌入式系统变得越来越复杂,这对嵌入式实时软件开发的各个阶段(从系统分析、设计到实现、验证)均带来了新的困
随着计算机技术的发展,Internet在过去十几年中迅速发展,其规模的迅速膨胀和用户数量的急剧增长不仅对网络设备提出了更高的要求,也对网络拥塞问题的研究提出了新的挑战。现有的
入侵检测技术是现代计算机系统安全技术中的研究热点。生物免疫系统保护了生物体不受外来病原体(包括病毒、细菌等)的侵袭,它在生物体内的作用与计算机领域的安全系统有着惊人
近年来,随着Internet技术和信息化建设的快速发展,开发基于Web的应用系统的需求越来越复杂,开发周期越来越紧迫,同时对系统的稳定性、扩展性和可维护性要求也越来越高。为了提高
信息网络和计算机已经成为人们生活、学习和工作中必不可少的一部分,在带来便利的同时也伴随有大量重大网络安全事件的频现。而且大部分的网络安全事件均是由黑客利用漏洞进行
神经网络和进化计算是计算智能的重要组成部分。神经网络结构的规模影响神经网络的学习能力与泛化能力。结构过小学习能力不够,结构过大泛化能力减弱。结构优化算法就是使神经
随着计算机技术的不断发展,人们在信息时代面临着越来越多的数据,如何发现隐藏在众多数据中的内部信息成为人们研究的热点问题。传统的数据库管理系统已经不能满足人们从数据库
本文主要研究图论及其应用中两个方面的问题:1、缺省n-可扩图:2、求赋权Halin图任意给定两点之间最优Hamilton路的有效算法。 论文的第一章介绍了文中所涉及的相关概念和术
在高温超导磁悬浮车运行过程中,列车悬浮高度是列车运行的一个关键数据,关系到列车运行安全的大问题,必须实时的检测。磁悬浮列车具有极高的速度,这就要求对磁悬浮车的悬浮高度进
WLAN是指采用无线传输媒介的计算机局域网。随着WLAN技术的飞速发展,无线局域网的安全问题成为大家关注的一个焦点,由于WLAN采用公共的电磁波作为载体,因此对越权存取和窃听的行