不同语料下基于LDA主题模型的科学文献主题抽取效果分析

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:shishaofei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。
其他文献
薪酬管理是企业管理的重要组成部分,对于提高企业的竞争力具有非常重要的作用。本文主要围绕着煤炭企业薪酬管理展开了论述,详细分析了如何加强薪酬管理,完善激励体系进一步
前不久,日本防卫厅做出决定,从2008年开始,将陆续给海上自卫队配备4艘可供直升机起降的航母型驱逐舰。将要开始建造的第一艘航母型驱逐舰可搭载4架直升机,并且可供3架直升机
本文针对城市居民关注的"餐桌安全"与农业休闲观光服务品质低端等问题,进行了城市居民在农产品和农业休闲观光方面的消费现状和影响因素的分析,结果表明:城市居民十分关注农
随着全球经济一体化,港口物流与临港产业也随之高速发展,建立港口物流与临港产业之间互利或者良性竞争关系,协调两者之间的关系发展,研究两者之间的耦合程度,在发展港口物流
<正>晚饭后,我牵着外公的手在大街上悠闲地散步。幢幢高楼鳞次栉比,瞬息万变的霓虹灯渐次亮起,妆扮着不夜的街市。车辆川流不息,两旁的商店别出心裁地推出琳琅满目的商品招徕
随着知识大爆炸时代的深入,知识型社会的建构日益得到人们的重视,尤其是社会对人才质量要求的提升,使得许多教师、家长开始关注学生的课外学习时间,利用课外时间布置各类作业,希望能够提高孩子的学习成绩并获得多方面的发展。因此,我们会经常看到许多小学生课外学习时间被占用的所剩无几。小学生目前的课外学习时间是否被合理安排,这些被安排的时间结构对学生成绩是否有积极促进作用是值得人们深思的问题。本文的研究正是基于
无公害秋白菜因其生产技术规程规范、科学,白菜产量高、品质好、收益大、无污染、安全有营养而倍受广大城乡居民欢迎。选用高产、抗逆性强、净菜率高、品质好、耐储运的品种,
目的研究四逆散对创伤后应激障碍(PTSD)模型大鼠海马区神经元结构的影响。方法用随机数表法将SD雄性大鼠随机分为5组,每组10只:空白对照组、模型组、阴性对照组、阳性对照组和
为强化服务"三农"战略定位,实现"三农"金融服务可持续发展,适应县域市场竞争的新要求,农业银行湖北分行大力推进"三个惠农"工程,通过科技惠农、产品惠农、专业惠农,构建三位
<正>小学数学课堂教学中提问技巧在教学中有非常重要的作用。传统教学过程中,教学对学生进行提问没有太多技巧,导致教学质量难以保证。教师应该根据学生的具体情况由易到难进
会议