基于子主题划分和句子特征的中文文档自动文摘研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:rlhRLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上电子信息的剧增,如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述,它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因此,自动文摘逐渐成为近年来自然语言处理领域的一个研究热点。本文首先介绍文摘的概念、自动文摘的国内外研究现状及研究方法。然后针对基于LexRank算法的文摘抽取存在的优缺点进行了讨论分析,提出了一种新的基于子主题划分和句子特征的中文文档自动文摘方法:①将中文文档表示为以句子为顶点,句子之间的相似度为边权值的无向加权图结构。然后得到其最大生成树,并在最大生成树上采用改进的K-means算法完成聚类,得到的每个子类代表一个子主题。对文档进行子主题划分可以解决摘要的低主题覆盖率,得到更全面的文摘;②在每个子主题内,句子权重由LexRank算法得到的句子显著度与句子特征的得分共同衡量,例如句子的长度、位置、标题词汇、指示性短语、句子结构等,从而得到更加准确和全面的句子权重;③在抽取文摘前,首先对子主题按照重要度由高到低进行排序,然后按照压缩率依次从每个子主题中抽取当前权重最高的句子放入文摘句集合中。每当抽取一个文摘句后,就对该子主题中其他句子进行权重重置计算,以避免下次重复抽取相似度较高的句子。这样不仅可以使文摘较全面的表达文档的重要主题,而且可以减少文摘的冗余。最后使用哈尔滨工业大学社会计算与信息检索研究中心提供的单文档自动文摘语料库,对三种不同的自动文摘方法进行了对比。第一种是本文提出的方法,第二种是基于LexRank算法的文摘抽取方法,第三种是基于句子特征和LexRank算法的方法。实验表明本文提出的方法在准确率、召回率、F-measure和ROUGE指标上均优于其他两种方法,能够得到质量更高的文摘。
其他文献
在生产和作业场地中出现的事故很多都与工作人员违章违规行为有关。在大多数生产作业场地中,不正确佩戴安全帽是最常见的违规行为。因此采用具备实时性、准确性和预见性现代
无线传感器网络(Wireless Sensor Network, WSN)低功耗、低成本、自组织与分布式等特点使其成为了信息获取的重要技术,然而资源受限使得对无线传感器网络的研究面临着巨大的
近来,信息泄漏成为了网络社会中非常严峻的问题。调查显示,近50%的信息泄漏问题是由纸媒体(印刷文本)泄漏所导致的。信息安全问题日益突出,信息安全在互联网环境下面临了很多新的
随着互联网的不断发展,用户及其发表的评论成爆炸式增长。这些评论包含大量的信息,企业需要用户对其产品或服务的评价来改善质量并提高产品和服务销量;政府也需要了解大多数群众
宾馆服务业与国际市场接轨己成为大势所趋,面对激烈的市场竞争和纷繁复杂的业务需求,就必须提高整体竞争能力,变革宾馆的管理模式,提高管理水平。目前国内宾馆的信息化管理的
随着计算机硬件技术的不断发展、用户对传统PC使用方式的不断改进,桌面虚拟化技术逐渐被人们所认知。用户访问自己的虚拟PC,可以如同操作传统PC一样简单方便,轻松的使用各种
视觉注意机制是以认知学、神经心理学等相关研究领域的成果为基础,运用数学方法建立感知模型,力图实现对生物视觉系统的模拟。本文的主要工作是针对视频序列中跟踪算法会受背景
人名具有很强的歧义,现实生活中同一个姓名可能被多个实体人物所使用。尤其在信息量快速增长的互联网中,人名歧义性问题已经成为一个迫切需要解决的问题。人名消歧研究的是将相
本文的研究围绕物联网编码寻址展开,在对物联网资源编码寻址特性研究的基础上,定义物联网轻量级编码模型,将此模型作为理论基础并结合物联网感知节点的特殊性,研究一种基于轻
模糊推理是一种不确定性的推理方法,它是模糊专家系统、模糊控制系统等领域的重要理论基础.讨论基于模糊推理算法构成的模糊系统的响应能力是模糊控制理论的一个重要的研究方