基于主题模型的关键词抽取算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:hzduoying001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,海量信息充斥网络,面对如此复杂而庞大的数据,快速且准确地获得关键信息,变得尤为重要。在文本领域,每天都会有海量数据产生,比如网页新闻、论文文献、微博舆论等,鉴于人力物力的有限性,处理如此多的数据几乎是不可能的,而关键词则能有效地概括反映文章的主题思想,人们可以借助文本的关键词快速了解文本内容,获取到关键信息。关键词是表达一篇文档核心内容的最小单元,在很多领域都扮演着很重要的角色,包括文档的自动摘要、网页信息抽取、文档的分类聚类、信息的检索等。然而传统的人工标注关键词耗时费力,所以需要设计出能够自动抽取关键词的算法。针对以上问题,本文进行了关键词抽取算法的研究,引入主题的概念,从主题角度进行关键词抽取。本文的主要工作如下:(1)首先对关键词抽取算法进行总体概述,根据关键词抽取方法的不同,分别从是否需要标注语料、抽取的关键词特征、抽取的文本语料的长度等角度,介绍了不同的关键词抽取方法。(2)由于传统的关键词抽取没有考虑到关键词与文章的主题关系,本文引入主题的概念,利用LDA主题模型,结合n-grams进行关键词抽取。从关键词的定义中可以得知,关键词要能最大程度的覆盖文章的主题,表达文章的主题思想。该方法通过将主题语义特征结合传统的统计特征,一定程度上能够较好地抽取出文章的关键词。(3)基于图和LDA主题模型的关键词抽取算法,利用TextRank图模型,直接将整个短语作为图的节点,迭代计算LDA主题得分,得到短语节点间的相关性,最终候选词的得分通过所从属的节点得分等信息计算得出,并选取前K个得分高的候选词作为文章的关键词。实验结果表明,该方法优于基本的关键词抽取算法,能够有效地抽取出文章的关键词。
其他文献
我场现有双季稻田7500亩,其中3000亩是1952年建场以来逐年开垦的新稻田。随着农业学大寨运动的深入发展,场党委对新开稻田如何夺高产问题采取了积极措施去解决。1969年后,有
随着国民经济的持续发展,旅游业得到了迅速的发展。旅游在我国内需型经济生活中发挥着重要的作用,成为国民经济新的经济增长点,日益受到我国政府的关注。旅游业的兴起为我们提供了新的发展机遇,但由于旅游涉及面广、不确定因素多,其中存在着很多问题,导致旅游服务质量和安全问题日益严重,旅游投诉大幅上升。由于现代信息技术及网络技术的发展,基于Internet及其他计算机技术的旅游电子商务应运而生,并且迅速发展壮大
随着人们健康意识的提高,食品安全问题越来越受到人们的重视。乳及乳制品已成为人们息息相关的主要食品之一,是关系到人尤其是婴儿健康成长的重要食物,因此乳及乳制品质量就
漯河市委副书记、市长鲁茂升在该市前些时召开的新闻工作会议上,就舆论监督问题作了发言。他说,我们的各项工作需要新闻单位的支持,新旧单位也需要各方面、各部门的支持,尤
随着计算机技术的发展,计算机软件的质量越来越受到人们的关注。尤其是安全关键性软件,比如航空航天领域的软件,我们更加关心这些软件的可靠性。那么如何来开发可靠的软件,如何来
我们在平时的教学中,常常会碰到这样的现象,学生利用新近所学内容解决问题比较顺手,而拿到一个用以前所学知识或与书本知识关联不太大的问题时便束手无策.究其原因是我们平时
扩充的实时系统和空间推理是当前的两个新兴领域,在理论及工程应用上都有重要作用。实时系统主要研究在给定的约束条件下多任务的调度安排问题,这些任务是有截止期的,也就是
新《课程标准》中指出:“数学教学是数学活动的教学,是师生之间、学生之间交往互动与共同发展的过程.”课堂教学是学生在校期间学习科学文化知识的主阵地,也是对学生进行思想
差分进化算法(DE,Differential Evolution)是进化优化算法中最优秀的算法之一,具有自搜索、自适应、并行性等特点,已成功用于解决各种工程和科学问题。差分进化算法是一种基
数列求和问题历来都是高考命题的热点,也是高中数学教学的重点.求解这类问题的关键是抓住数列通项的结构特征,联系基本数列的求和技巧构造性解题.本文通过一些典型的范例,对
期刊