基于Doc2Vec和改进的TextRank的中文单文档摘要研究

来源 :中国电子科技集团公司电子科学研究院 | 被引量 : 2次 | 上传用户:youshulin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪以来,计算机的普及与应用极大地改变了人们的日常生活,并且给人类带来了诸多的好处,人们可以通过互联网上大量的信息汲取到自己所需的知识。自动文本摘要技术通过使用计算机对文本进行处理,分析文本并生成摘要输出,使人们快速获取文本的关键信息。自动文本摘要技术从上世纪50年代被提出以来,经历了较大的发展。目前,在文本摘要方面,国外已经出现了较多应用,并且能够取得不错的效果。汉语自动摘要的提取出现较晚,且由于汉语语言本身存在一定的特殊性,故不能直接利用国外的方法进行摘要提取,需研究适合中文文本的摘要方法。国内目前已经存在的相关系统的应用效果还有待提高,同时针对中文文本摘要技术的改进具有重要意义。本文提出了 DK-TextRank算法,较好地利用了 Doc2Vec、K-means聚类和TextRank算法各自的特点。先利用Doc2Vec工具将文本中句子向量化;后利用二分的K-means聚类算法进行聚类操作;最后使用改进的TextRank算法在每个类簇内部进行排序,最终筛选出每个类簇中最具代表的句子,生成最终的摘要。最后,为了说明本文提出的DK-TextRank算法的有效性,我们搭建了相关实验环境并对使用DK-TextRank算法的中文文本摘要系统进行了性能分析。在实验过程中,选取了 50000新闻报道作为实验对象,这些新闻报道的领域涉及财经、体育、政治、社会等各个方面。通过实验,我们得出,本文的DK-TextRank算法具有较好的性能,对于文章内容概括较为全面。同时,本文将DK-TextRank算法的效果和TF-IDF算法、传统TextRank算法的效果进行对比,实验评测结果证明本文算法性能效果也好于其他算法。以上结果证明本文的DK-TextRank算法更适合中文文本,在中文文本摘要方面能够取得令人较为满意的效果。
其他文献
电气化铁路接触网绝缘水平较低,接触网一旦遭受雷击将对接触网造成严重危害。接触网架设避雷线是一种有效的直击雷防护措施,对提高接触网雷电防护性能具有重要意义。为研究接
近来,一则消息让专业肿瘤研究者兴奋不已:一种商品名为Keytruda的免疫药物被美国FDA批准用于“MSI—H/dMMR亚型”的实体瘤。围观群众却摸不着头脑:什么事值得你们这么激动?
用Sn/Ni液/固扩散偶研究了Sn液体和Ni基体之间的界面反应和生成相序列。结果表明:Sn/Ni液/固扩散偶在773K退火,其液/固界面上首先生成Ni3Sn4相。而在873K退火15min,首先生成Ni3Sn2-HT
标题是新闻的"眼睛",要使这双"眼睛"放出夺目光彩,"讨巧"是一种有效的方法。巧妙、有趣的新闻标题不仅引人注目,还会给文章增色不少。"巧"从何来?要善于从中华民族优秀传统文
自2015年出现第一单互联网消费金融证券化产品后,伴随着互联网消费金融的发展,其证券化产品市场也开始迅速扩张。但是,目前国内对互联网消费金融证券化产品进行的系统化研究
<正>3M加压固定胶带采用棉布背衬,内埋弹力丝,弹性好、顺应性强,针对不规则的部位,粘性稳定、牢固;透气性好,残胶少,很少受温、湿度的影响;不易发生皮肤刺激、过敏等不良反应
杨必女士翻译的萨克雷的<名利场>,译文具有很强的可读性,同时也保留了原作的风姿和神韵,是一个十分优秀的译本.
<正>1 前言 2005年,我们即将迎来我国伟大航海家、世界级历史伟人、三宝太监郑和下西洋首航600周年。郑和率领庞大船队开创人类航海史空前壮举,世所公认。郑和开拓进取,勇敢
会议
<正>肌酸又叫肌肉素,是人体内天然存在的营养素。人体内的肌酸,95%存在于肌肉中,其中60%是以磷酸肌酸的形式存在。肌酸最早被人类发现要追溯至1832年的法国,科学家M iche l首
目的:探讨性激素替代治疗对手术绝经患者血管内皮细胞的保护作用.方法:51例手术绝经患者分为性激素替代治疗组和对照组,治疗组给予雌激素加孕激素联合口服9月.两组在实验前后