基于关键词提取的中文网页自动文摘方法研究

被引量 : 0次 | 上传用户：jianting520

【摘要】

：

自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以

【作者】

：

蒋昌金

【发表日期】

：

2010年期

【关键词】

：

自动文摘权重计算段落聚类中文网页组合词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以及摘要的生成三个主要步骤。自动文摘的大致发展历程为:早期的基于统计的机械式自动文摘时期(如词频统计法,句子位置法);七、八十年代的基于知识表示的(如脚本、框架、模板或一阶谓词)理解型自动文摘时期;九十年代的基于信息检索的自动文摘时期;进入二十一世纪以来,融合自然语言理解与人工智能方法的综合型自动文摘时期。从自动文摘的发展历程可知:使用某种单一技术的自动文摘,信息的全面性和准确性都不高。本文主要综合利用文本浅层信息、文本语义信息、知识库方法以及人工智能技术等来获取中文网页的自动文摘。本文首先分析了文本中表达主题的词汇的本质特征,利用这些特征提出了一个词语权重计算方法,该方法能使表达主题的词汇权重更高;在此基础之上,提出了一种对问句进行分析的方法;在分析文本主题信息、语义信息等的基础上,提出了一种发现文本中最能表达主题的重要句子的方法,并运用该方法来生成自动文摘;最后提出一种毗邻段落聚类算法来提高自动文摘的质量。本文的主要创新点如下:1、针对现有的中文关键词提取方法准确率不高的现状,通过分析分词系统的影响、同义词现象和一词多义现象等因素,提出了一种能使表达主题的关键词汇或短语有着更高权值的方法。该方法首先通过组合词提取算法识别文本中的组合词和新词,然后利用构造的有着上下文的同义词集,合并同义词的词频,避免同义词在输出结果中同现,最后利用词频、词性、词长、词的位置等综合信息来计算文本中词语的权值。实验结果表明,此方法能够较好地识别文本中的关键词,与基于改进的TF-IDF方法相比,本方法具有一定的优势。2、提出了一种基于领域词典和问题类别对照表的中文问句分析方法。该方法在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词成分,去掉虚词成分,组成一个初始查询向量。然后对初始查询向量进行同义词扩展,该扩展能使得查询返回更多的结果。最后对扩展查询向量进行问句类型关联词扩展,以限制返回结果必须含有该问句所在类型的词汇,以提高查询的准确率。实验表明,对查询向量的两次扩展确实能提高查询返回结果的质量。3、针对现有中文自动文摘系统过于依赖标题信息的缺陷以及用户对多样化文摘的旺盛需求这一现状,提出了一种基于主题词权重和句子特征的句子权重计算方法。该方法首先使用词语权重计算公式计算词语权重,然后根据标题的类型信息以及代表用户偏好的词汇信息等修改词语的权重。再利用修改的词语权重和各种句子特征来计算句子基于内容、位置、线索词和用户偏好的权值,最后通过一个拟合函数对这四种权值进行拟合来获得句子的最终权值。实验数据证明,用该方法计算句子权重获取的文摘要优于基于改进的TF-ISF方法的文摘。4、针对现行的基于准确率、召回率的文摘评价方法只能从句子的粒度对文摘进行评价的缺陷,提出了一种基于词粒度的文摘评价方法。该方法首先定义了广义多重集的“交”和“并”的运算,然后将人工文摘和机器文摘表示成为一个广义多重集。在此基础之上,重新定义了准确率、召回率和F值计算公式,并用它来进行文摘的评估。由于该方法可以避免内容基本相同但是句子不同的两篇文摘评估结果悬殊的问题,因而用改进的公式计算文摘的准确率和召回率更加合理。5、针对现有的文本聚类算法计算量大、算法复杂度高、对初始类的选取过于敏感等缺陷,提出了一种毗邻段落聚类算法。该算法的思想是:首先选取文本的第一个段落作为第一个聚类;对于以后的段落,计算其跟与之相邻的前一段落的相似度,若该相似度大于某一阈值,则将该段归入它的前一段所在的类;否则,创建一个新的类,将该段加入其中,直至处理完所有段落。实验数据表明,毗邻段落聚类算法不但算法复杂度低、易于操作,而且能取得和著名的K-Means算法相当的段落聚类质量。

其他文献

馆藏文物保存环境大气颗粒物污染特征研究

颗粒物已经成为影响文物保存环境质量的重要因素之一,但是目前国内研究尚比较缺乏。监测文物保存环境中颗粒物浓度、减少其对文物的影响已成为一个重要的研究课题。本文在上

学位

文物保存环境大气颗粒物粒径分布水溶性离子游客扰动

半夏提取液的抗肿瘤性研究

目的 :通过半夏酒精提取液对几种肿瘤细胞体外和体内实验 ,验证半夏是否具有抗肿瘤性。方法 :在人结肠癌细胞 (HT - 2 9)、直肠癌细胞 (HRT - 18)和肝癌细胞 (HepG2 )培养液

期刊

半夏酒精提取液抗肿瘤性

丘陵山区重力式村镇供水管网优化及安全调控研究

本论文是结合某丘陵山区重力式村镇供水管网规划的实际工程而完成的。众所周知,丘陵山区村镇供水管网与一般城市供水管网有很大的区别:第一,丘陵山区重力式供水管网与其水源

学位

重力式供水减压储水调节装置数学模型优化设计

法律不公与民族宗教歧视——《威尼斯商人》实录片段

<正>师:上节课我们讨论了《威尼斯商人》的矛盾冲突和鲍西娅、夏洛克两个主要人物的性格特点,通过讨论我们体会到了莎士比亚对仁爱、友谊、爱情的热情讴歌。现在,请大家想一

期刊

《威尼斯商人》夏洛克鲍西娅

R410A-润滑油混合物在5mm水平强化管内流动冷凝换热和压降特性研究

传热特性和流动特性,是R22的理想替代物。采用小管径换热管是降低R410A空调蒸发器成本和改善能效的重要手段之一。目前外径为5.0 mm的小管径换热管正在被广泛地应用于R410A空

学位

R410A润滑油流动冷凝换热压降关联式齿高

《谈生命》细读

<正>初中语文教材中关于认识生命、感悟生命的文章有多篇。冰心先生的散文《谈生命》是一篇比较独特的文章,但因其被安排在九年级下册,教学中常受中考复习进度的影响而被忽略

期刊

《谈生命》生命的本质生命历程两条线索

星载AOS数据处理器的设计与实现

本文以遥感卫星的需求为背景,在国际空间数据系统咨询委员会(CCSDS)对高级在轨系统(AOS)建议的基础上,对AOS在空间高速数据传输链路中的应用进行了研究。根据有效数据、无效

学位

CCSDSAOS虚拟信道动态管理CRC加扰PCB

人际互动的认知神经机制：事件相关电位研究

人际互动是指人与人之间的社会交往活动,或人们对他人的行动和反应过程。人际互动是一种非常复杂的行为,它是人们日常生活中必不可少的一部分。随着社会的高速发展,合作、竞

学位

前额叶社会认知合作内侧前额叶负波人际互动事件相关电位

半夏白术天麻汤合指迷茯苓丸治疗椎动脉型颈椎病

运用半夏白术天麻汤合指迷茯苓丸加减治疗椎动脉型颈椎病 82例 ,疗程 2 0天。结果治愈 4 3例 ,占 5 2 4 3% ;好转 2 9例 ,占 35 37% ;未愈 10例 ,占 12 2 0 %。总有效率为

期刊

椎动脉型颈椎病中药治疗半夏白术天麻汤指迷茯苓丸

氧化锡纳米片制备及气敏性能研究

本论文主要研究了SnO2纳米片制备及其气敏性能,并对其进行进一步的修饰和掺杂,提高其气敏性能。具体研究内容如下:（1）通过简单的均相共沉淀方法,制备了SnO2纳米片,并对最佳实验

学位

氧化锡纳米片气体传感器贵金属修饰掺杂

基于关键词提取的中文网页自动文摘方法研究

与本文相关的学术论文