基于Spark的学术研究热点挖掘方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:hlxcun3e5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过优化Spark MLlib机器学习库中的隐含狄利克雷分布(LDA)主题模型,提出一种改进的学术研究热点挖掘方法。采用LDA主题模型对学术论文关键词进行建模,利用困惑度确定主题模型的最佳主题个数,并将文档-主题和主题-词概率分布矩阵转化为文档-主题和主题-词评分矩阵。通过计算背景主题与评分矩阵中各主题之间的相似度对主题进行排序,挖掘出学术论文中的研究热点。实验结果表明,该方法能提高LDA主题模型的挖掘效果,有助于发现有价值的学术研究热点主题。
其他文献
煤矿企业节能降耗是促进社会绿色低碳发展的重要一环。文章介绍了煤矿供电系统能耗现状和夏店煤矿供电系统节能降耗的具体措施,并对该矿节能降耗的成效进行了阐述。
传统的以弹性理论和经验方法为基础的路面结构设计方法,对路面结构的安全性评价存在着不合理性。安定理论可为复杂荷载作用下的路面结构承载力分析提供理论依据,基于该定理发
复合词"眉目"于唐代初步成词,经过词汇化的发展,在现代汉语中发展出多个义项。文章主要探讨"眉目"一词在语言发展过程中凝固成稳定词项及其意义演变的过程,解释其词化机制,同时指
传统数字信号处理器(DSP)目标板通过总线调用硬件驱动层命令实现与DSP的通信,然而该方式需要考虑应用环境变化、服务程序中断等因素,会影响DSP应用开发效率,增加开发成本。为此
腰椎间盘突出症是一种以腰腿痛为主要症状的临床常见病。正确认识腰椎间盘的解剖特点、组织结构及其在脊柱腰段各组织中的生理作用,对理解腰椎间盘突出症的发病机制及病理特点
现有基于信道跳转序列(CHS)的盲信道交汇策略研究多针对认知无线电网络媒体访问控制(MAC)协议的接入协商问题,较少关注接入控制方面。为此,分析载波侦听多路访问/冲突避免(CSMA/CA
慢性光线性皮炎(chronic actinic dermatitis,CAD)是指以光敏性皮炎和光线性类网状细胞增多症为病谱两端的常见谱系光线性皮肤病,治疗较棘手。我科2003年2月-2006年2月采用羟基氯
针对传统基于密文策略的属性加密方案在密钥生成、密文解密和属性撤销阶段计算开销大的问题,提出一种具有属性撤销功能的外包属性加密方案。在加密过程中使用线性秘密共享机
小学是培养良好学习习惯的重要时期,语文又是基础学科,是学好其他学科的关键。从小培养起良好的语文学习习惯对其一生都具有积极的影响。教师和家长要相互配合,在小学阶段就
目的调强放射治疗(intensity modulated radiotherapy,IMRT)联合腔内近距离治疗(intracavitary brachytherapy,ICBT)是宫颈癌标准放疗技术。膀胱状态是影响靶区和危及器官(or