摘录式单文档中文自动文摘系统的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zxjscsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸的时代,人们面对着大量没有经过整理的原始数据时,将会茫然不知所措,而自动文摘技术能给人们提供更有力的信息加工技术和工具,但时下出现的自动文摘系统,特别是中文自动文摘系统并没有取得很好的效果,故本论文对中文自动文摘系统进行了研究。本论文提出的摘录式单文档中文自动文摘系统以单篇纯文本文档作为输入,自动地抽取全面准确地反映文档中心内容的句子组成文档的摘要。本系统首先采用分词工具ICTCLAS对文档进行分词和词性标注:然后采用TFC权值对分词后的文档建立向量空间模型,抽取句子的特征;接着采用朴素贝叶斯分类算法自动学习特征组合的方式和参数,将摘要转化成分类问题;最后根据分类结果,抽取文摘句组成文档的摘要。本论文首先对自动文摘技术进行综述:其次,介绍摘录式单文档中文自动文摘系统的总体设计,包括中文分词、文本分析、文本转换及文本合成四大模块的设计;再次,介绍摘录式单文档中文自动文摘系统的实现;最后,介绍系统性能评估的各个参数指标,并使用weka及30篇不同体裁的文档对系统的性能进行评估。本论文提出的摘录式单文档中文自动文摘系统分为四大模块,每个模块通过比较分析当前的文摘技术,选取一种最优的方案,试图通过各个模块的局部最优,最终获得系统的最优文摘效果。通过用Weka及30篇不同体裁的文档对系统的性能进行测试,表明本系统的文摘抽取效果是较好的。
其他文献
XML技术自产生以来,随着互联网Internet的迅速发展以及各种网络应用技术的出现,在网络数据存储与交换中发挥的作用越来越大,其安全性也受到广泛的关注。特别是随着Web服务技
随着计算机技术的发展,计算模式正逐步向“随时随地为人们提供服务”的普适计算过渡。随着网络技术和嵌入式技术的发展,各类便携、移动以及3C融合的产品逐渐融入并影响人们的
当今社会,各种调度规则与人工智能技术的结合已经成为目前调度问题研究的热点。基于知识库的调度是在一个群体中,建立知识库实现优化,作为一个关键模块,调度规则与知识库结合
虚拟现实技术是利用计算机生成一种高逼真的模拟环境,并可通过多种传感器接口,使用户“沉浸”到此环境中,从而实现用户与该虚拟环境之间的交互。目前,虚拟现实技术己广泛应用
嵌入式系统自诞生以来飞速发展,使得PDA、Pocket PC和智能手机等移动设备也迅速普及,基于移动设备的各种多媒体应用也逐渐丰富起来。2D图形显示已越来越不能满足人们对图形真
未来互联网体系架构需要得到大规模部署和验证。路由器是组成互联网基础设施的核心设备,解决互联网在安全可信、服务质量、移动管理、大规模路由等方面存在的问题采用的主要
无线传感器网络综合了传感器技术、计算和通信技术,成为计算机科学领域一个活跃的研究分支。在无线传感器网络体系结构中,网络层的路由技术对无线传感器网络的生命周期至关重
在日新月异的信息时代,大数据的出现给我们对于数据存储和处理带来了新的问题与挑战。在生物识别技术领域中,指纹识别技术的地位越来越重要,在身份识别和信息安全中发挥的作
随着Internet和宽带网的快速发展,流媒体应用已经成为当前Internet领域中的重要应用之一。流媒体技术通过多媒体形式能够呈现出比传统的文本格式更为直观和丰富的信息内容。
当前即时通信软件的开发主要是从协议的底层来进行研究,主要利用的是几大开源协议栈以及基于这些协议栈之上的通信API接口等。如何从现有开源协议或应用API或第三方软件着手