基于主题模型的科研热点态势分析

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:tt77uu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科研工作者人数的迅速增长,学术文献数量与日俱增,这一现象使科研热点的发展趋势无法人为的跟踪和处理。研究科研热点的发展态势有利于科学研究者查找相关主题的材料;有利于学者们及时了解科研主题的发展状况;有利于企业科研投资决策和国家对科研工作的指导和鼓励。过去,一些科研学者通过简单的统计方式就关键词和文本中词频高的词来表示热点主题,然而这种方式不仅忽略了词之间的相似性,而且需要耗费大量的人力和时间成本。目前大部分科研热点问题的研究主体都是汉语文献,然而很多重要的科研成果都是以英文的方式呈现。为了更好的掌握并跟踪时下科研热点的发展状况,本论文针对SCI学术文献进行数据处理和分析:对数据进行清洗去噪、文本分词、去停用词、词根还原等工作;然后采用word2vec和LDA的主题模型分析技术对数据进行处理,提取科研热点主题及其主题词;最后将研究结果以可视化的方式呈现出来。本论文的主要研究工作如下:1)基于word2vec模型和LDA的主题模型分析实验数据。对LDA主题模型进行改进,引入word2vec词向量表示,将传统LDA模型的主题-词矩阵,变成主题-词向量矩阵,弥补了上下文语义信息缺失的不足,对文本数据进行相似度的度量。对主题最优数进行求解,将主题最优数问题转换为统计学问题,对主题最优数做了定量分析,采用F统计量对主题最优数进行计算。分别就主题强度、主题相似度和主题稳定性这三种形式度量主题的发展状态,通过困惑度指标对传统的LDA模型和本论文模型进行对比。2)科研热点可视化分析。采用三种方式来对科研热点的发展状况进行可视化展示,其中包括静态可视化方式:词云,动态可视化方式:主题河和TIARA(text insight via automated responsive analytics)。基于word2vec和LDA的主题模型,能够弥补LDA不考虑词与词之间相似性的不足,对主题和主题词的提取更加合理,而且本论文采用可视化的方式对提取的科研热点进行表示。这样做可以方便用户查找某个时间段的科研热点以及某一科研热点的发展态势等,方便科研工作者对科研热点的把握,国家对科研工作的支持和引导。
其他文献
10例肝硬化门脉高压症患者接受经颈静脉肝内门体分流术(TIPSS)9例成功,1例失败,建立分流后门脉压从术前的(3.91±0.51)kPa降至(2.25±0.31)kPa(P〈0.01);门脉主干的血流速度从术前(15.80±7.10)cm/s增至(46.73±5.98)cm/s。呕血,黑便得到控制
期刊
【正】 四、应用实例(一)——某地轻工产品产值预测以下几节将结合实例,介绍如何应用多层递阶预测方法来解决实际问题。本节先介绍某地轻工产品产值的预测。应用某省二轻产品
<正>还记得两年前的一节班会课上,我在屏幕上出示了这样一段文字:&#39;1964年2月9日,11岁的龙梅和9岁的玉荣姐妹俩赶着羊群在一望无际的草原上放牧。中午时分,一场罕见的特大
期刊
【正】 河南易县农业区划办公室应用灰色系统理论,对全县农业经济、人口和诸业的生产指标做了灰色预测,1986年预测精度在90%以上(与1986年生产实际相比)。在此基础上,充分利
为了高效绘制适用于现场作业的股道运用技术作业表,结合Excel的较强计算功能和CAD的较强绘图功能,进行Excel数据处理和CAD VBA二次开发,实现在CAD中自动绘制股道运用技术作业表。实际应用表明,该方法操作简单,易于掌握,实用性强,推广至各铁路车站使用不仅能提升列车运行图的编制质量,还能有力保障现场的安全生产。
缩宫素在临床上主要用于引产、产前子宫收缩无力、产后出血和子宫复原不全。常用给药途径有肌注、皮下或静注、静滴。不同的给药途径可以影响药物吸收速度和生物利用度。某些
【正】 为发挥信息的功能和实效作用,及时为上级领导反馈信息,为零售商店提供信息服务,最近我们召开了部分零售单位经理“信息工作研究会”。现将他们的发言和建议归纳如下:
<正>一、研究背景当下,我们处于一个全球化与多元化的时代。改革开放使我们的经济、制度及思想观念与世界接轨,并因此引起社会观念及行为习惯的大规模改变;经济快速发展引起
会议
通过窖外模拟发酵试验研究了不同比例大曲用量对浓香型白酒发酵糟醅质构特性的影响,结果发现:糟醅的初始含曲量越高,糟醅的硬度、内聚性和粘着性呈增大的趋势,而弹性和回复性