基于TextRank算法的中文文献自动摘要提取研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wdtt111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代产生庞大文献资源的同时,也出现了信息过载的问题,文本数量已经远远超出人工处理的极限。借助自动摘要技术,对文本生成精炼的“思维导图”形式摘要,可迅速了解全文的核心内容框架;文献检索数据库能更准确有效地进行论文比对和查重;各类数据库将生成更精确的索引,方便读者检索。源于1958年的自动摘要技术研究逐渐受到业界重视。其中,TextRank是基于图方法的代表性算法之一。TextRank算法属于无监督方法,无需语料即可直接应用于单文档。该算法把文本分割为若干单元(词语、句子),这些单元作为节点,单元间的相似度构成节点的边,建立图模型,再代入到TextRank公式中迭代计算,得到句子权重,最后选取权重得分最高的句子作为摘要。本文研究面向单文档的中文文献,在传统的TextRank算法基础之上,分析了具有标题结构和摘要关键词的计算机类文献,并针对这类文本,引入了标题、摘要关键词及句子位置等文本特征,将标题相似度、摘要关键词、句子位置融入到句子权重的计算,综合考虑得出最后的句子权重,从而生成摘要。实验语料来自知网下载的50篇中文计算机类文献,各自选取一个带标题的章节共50篇,同时保留每篇文献的摘要关键词。本文利用自动摘要评价指标平均准确率P、平均召回率R和平均F值,对比改进的句子权重算法和TextRank算法的自动摘要效果,结果表明生成质量获得了一定的提升;利用滚雪球的方法确定改进算法的最终句子权重的参数δ;测试了改进算法和TextRank算法两种方法在不同抽取数时,占人工摘要句子集的覆盖率情况,测试结果表明改进后的自动摘要方法效果有一定程度上的提高。
其他文献
检察事业是否有生命力,关键在人。新形势下,检察机关在延揽人才方面如何做到“暖人心、得人心、稳人心、聚人心”成为检察事业发展的重要一环。立足改革发展的新起点,北京市门头
报纸
随着汽车产业转型升级的不断推进,汽车技术日新月异,时下汽车趋向低碳化、信息化、智能化的方向发展。面对汽车技术的发展、结构的改变,汽车维修行业也将面临着维修技术的更新。中职汽车运用与维修专业主要为汽车维修企业培养一线技术工人,在行业变革的趋势下,汽修技能人才的培养也将发生渐变。本研究始终围绕如何提升中职汽车运用与维修专业学生的技能展开研究。首先采用文献法,查阅了国内外汽车维修人才培养的相关文献和汽车
目的探讨小儿轮状病毒(RV)肠炎合并良性惊厥的临床特点及预后。方法对我院住院治疗的26例RV肠炎合并良性惊厥患儿的临床资料及随访结果进行回顾性分析。结果 26例中发病年龄最
<正>感言面对医改及三甲评审——机遇与挑战学会、医院和科室非常重视——荣幸与激励始终如一地为医院药学、为患者做贡献——责任与使命四个"一"工程一个理念——患者为本一
会议
抓党建带队建促业务,是检察机关的优良传统。在庆祝检察机关恢复重建40周年暨全国检察机关第九次“双先”表彰大会上,中共中央政治局委员、中央政法委书记郭声琨强调,要坚定不移
报纸
<正>一、导言后危机时代世界经济发展的走势,是目前理论界与政府开始关注的一个热点问题。目前的研究更多地集中于金融体制本身。从理论看,后危机时代的研究涉及长周期研究。
会议
近十几年以来金催化炔烃的亲核加成引起了众多的关注,该方法己被广泛应用于复杂分子的合成,尤其是重要的功能环状化合物的合成。金活化的炔烃尤其是末端炔烃可以接受一系列亲
安徽铜陵地区是我国最著名的铜金产地之一,成矿与岩浆作用关系密切。近年来,铜陵中生代侵入岩的成因仍然存在分歧。本文报道了铜陵地区金口岭花岗闪长岩体、铜官山和冬瓜山石
目的:通过对我院药品不良反应的情况进行整理分析,提高用药安全,避免不良反应的重复发生。方法汇集整理我院2011年9月至2013年8月间由医师及药师所报告的药品不良反应病例156例,
本文通过对我国西南地区少数民族服饰文化研究分析对比后,选择以哈尼族传统服饰为例,进行创新设计。阐述在追求新颖、时尚、潮流的今天,如何将传统的服饰文化与当代时尚元素