基于子主题划分和句子特征的中文文档自动文摘研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：rlhRLH

【摘要】

：

随着网络上电子信息的剧增，如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述，它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因

【作者】

：

张佳培

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2012年期

【关键词】

：

自动文摘子主题划分句子特征 K-means算法句子权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络上电子信息的剧增，如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述，它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因此，自动文摘逐渐成为近年来自然语言处理领域的一个研究热点。本文首先介绍文摘的概念、自动文摘的国内外研究现状及研究方法。然后针对基于LexRank算法的文摘抽取存在的优缺点进行了讨论分析，提出了一种新的基于子主题划分和句子特征的中文文档自动文摘方法：①将中文文档表示为以句子为顶点，句子之间的相似度为边权值的无向加权图结构。然后得到其最大生成树，并在最大生成树上采用改进的K-means算法完成聚类，得到的每个子类代表一个子主题。对文档进行子主题划分可以解决摘要的低主题覆盖率，得到更全面的文摘；②在每个子主题内，句子权重由LexRank算法得到的句子显著度与句子特征的得分共同衡量，例如句子的长度、位置、标题词汇、指示性短语、句子结构等，从而得到更加准确和全面的句子权重；③在抽取文摘前，首先对子主题按照重要度由高到低进行排序，然后按照压缩率依次从每个子主题中抽取当前权重最高的句子放入文摘句集合中。每当抽取一个文摘句后，就对该子主题中其他句子进行权重重置计算，以避免下次重复抽取相似度较高的句子。这样不仅可以使文摘较全面的表达文档的重要主题，而且可以减少文摘的冗余。最后使用哈尔滨工业大学社会计算与信息检索研究中心提供的单文档自动文摘语料库，对三种不同的自动文摘方法进行了对比。第一种是本文提出的方法，第二种是基于LexRank算法的文摘抽取方法，第三种是基于句子特征和LexRank算法的方法。实验表明本文提出的方法在准确率、召回率、F-measure和ROUGE指标上均优于其他两种方法，能够得到质量更高的文摘。

其他文献

基于人体识别的安全帽视频检测系统研究与实现

在生产和作业场地中出现的事故很多都与工作人员违章违规行为有关。在大多数生产作业场地中,不正确佩戴安全帽是最常见的违规行为。因此采用具备实时性、准确性和预见性现代

学位

人体识别安全帽识别支持向量机方向梯度直方图

无线传感器网络拓扑控制研究

无线传感器网络(Wireless Sensor Network, WSN)低功耗、低成本、自组织与分布式等特点使其成为了信息获取的重要技术,然而资源受限使得对无线传感器网络的研究面临着巨大的

学位

无线传感器网络拓扑控制功率控制分簇变化驱动报告

一种面向文本图像的地纹数字水印研究

近来，信息泄漏成为了网络社会中非常严峻的问题。调查显示，近50%的信息泄漏问题是由纸媒体（印刷文本）泄漏所导致的。信息安全问题日益突出，信息安全在互联网环境下面临了很多新的

学位

文本数字水印背景地纹提取率Gabor滤波器神经元模型

中文文本情感倾向性分类研究

随着互联网的不断发展，用户及其发表的评论成爆炸式增长。这些评论包含大量的信息，企业需要用户对其产品或服务的评价来改善质量并提高产品和服务销量；政府也需要了解大多数群众

学位

中文情感分类情感词典朴素贝叶斯属性加权多分类器组合

星级宾馆管理信息系统实现

宾馆服务业与国际市场接轨己成为大势所趋,面对激烈的市场竞争和纷繁复杂的业务需求,就必须提高整体竞争能力,变革宾馆的管理模式,提高管理水平。目前国内宾馆的信息化管理的

学位

C/S架构宾馆服务管理信息系统MVC设计模式UML建模

云桌面环境下公私混合存储系统设计与实现

随着计算机硬件技术的不断发展、用户对传统PC使用方式的不断改进,桌面虚拟化技术逐渐被人们所认知。用户访问自己的虚拟PC,可以如同操作传统PC一样简单方便,轻松的使用各种

学位

桌面虚拟化混合存储数据迁移数据安全

基于运动选择注意的目标跟踪系统的研究

视觉注意机制是以认知学、神经心理学等相关研究领域的成果为基础，运用数学方法建立感知模型，力图实现对生物视觉系统的模拟。本文的主要工作是针对视频序列中跟踪算法会受背景

学位

Itti视觉注意模型Mean-Shift算法sift算法目标跟踪

基于两步聚类和查询扩展的人名消歧方法的研究

人名具有很强的歧义，现实生活中同一个姓名可能被多个实体人物所使用。尤其在信息量快速增长的互联网中，人名歧义性问题已经成为一个迫切需要解决的问题。人名消歧研究的是将相

学位

两步聚类查询扩展人名消歧方法文档聚类结果

物联网轻量级编码寻址技术研究

本文的研究围绕物联网编码寻址展开,在对物联网资源编码寻址特性研究的基础上,定义物联网轻量级编码模型,将此模型作为理论基础并结合物联网感知节点的特殊性,研究一种基于轻

学位

物联网编码寻址轻量级

基于广义三Ⅰ算法的模糊系统及响应能力的研究

模糊推理是一种不确定性的推理方法，它是模糊专家系统、模糊控制系统等领域的重要理论基础.讨论基于模糊推理算法构成的模糊系统的响应能力是模糊控制理论的一个重要的研究方

学位

模糊推理模糊控制广义三Ⅰ方法响应能力

基于子主题划分和句子特征的中文文档自动文摘研究

与本文相关的学术论文