基于LDA模型的网络刊物主题发现与聚类

来源 :上海理工大学学报 | 被引量 : 0次 | 上传用户:shmilygang8751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2794篇学习刊物进行了主题发现和聚类实验,建立了包含3800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表
其他文献
传统的教学模式在中职营销教学中不能有效的调动学生的积极性。目前PBL教学法已逐渐成为国内外商学院广泛运用的一种教学模式。文章对PBL教学法在中职市场营销教学中的应用进
特色学校不等于拥有一批特长学生,不等于学校特色,不等于全校学生一刀切地发展某一特长;特色学校是独特文化风格的学校,是以实施素质教育为基础的学校,是全面发展与个性发展
三维模型设计在制造业、艺术领域、医学等各个领域都有着非常重要的地位,因此,三维模型设计越来越越被重视起来,然而传统的三维模型设计输出受传统的加工方式所限制,费时费力
利辛县地处皖西北淮北平原,位于北亚热带和暖热带之间的过渡地带,属暖温带半湿润季风气候,多年平均降水量为860mm,其中最大降雨量1360mm,最小降雨量472mm。
目的:观察吡拉西坦氯化钠注射液治疗脑出血的临床疗效。方法:选取87例脑出血患者并随机分为两组,对照组给予甘露醇治疗,研究组给予吡拉西坦氯化钠治疗,比较两组疗效。结果:研究
从微观经济学的成本论入手,阐述成本论的平均成本定价和边际成本定价理论对两部制水价制度的理论意义,分析南水北调工程两部制水价制度的定价机理,提出两部制水价制度的模式设计
目的:本研究通过对4周模拟海拔2500 m低氧训练期间血氧饱和度(SpO2)与运动强度(%VO2max)和血乳酸(BLa)之间关系进行分析,探讨低氧训练适应过程中运动强度评价的简易指标。方法:18名
目的:探讨乳腺病变诊断中数字乳腺断层与数字化乳腺X线成像的临床意义。方法:采用回顾性方法分析,选取我院自2016年5月至2018年5月收治的98例乳腺病变患者的临床资料,所有患
针对目前再生沥青混合料新旧集料混合不均而造成混合料性质不稳定的现象,文中提出采用化学染色法区别新旧集料、对比分析多种阈值的分割方法.通过图像方法分析再生沥青混合料
利用2000-2010年大纵湖地表水监测数据,运用《地表水环境质量评价办法(试行)》(环办[2011]22号)规定的方法进行定量分析和评价,确定水质的轻度富营养化污染状况、主要污染因子、影