基于主题模型的微博重要话题发现与排序方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:guo4502332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性.
其他文献
各有关单位:工程质量是涉及人民群众生命财产安全的大事,提高工程质量是满足人民群众日益增长的对美好生活向往的需要。为营造全行业、全社会关注工程质量的氛围,进一步推进
<正>江河瑞通科技集团有限公司是专业从事水行业领域信息技术研发与服务的企业集团,旗下拥有北京江河瑞通软件技术有限公司、武汉江河瑞通环保科技有限公司、兰州江河瑞通水
本文以南宁膨胀土为研究对象,研究HPTRM高性能植被保护垫的铺设对黑麦草种子发芽率、茎叶高度、植株含水率的影响。实验结果表明:铺设高性能植被保护垫(HPTRM)后植物的茎叶高
本文运用CPPS中国人口预测软件,采用广西全国第六次人口普查数据和2015年人口抽样数据为基础数据,对分城乡出生人口总量进行预测,结果显示:在高中低三种生育方案下,广西城镇
新型城镇化是挖掘内需潜力和发展动能的重要支点。2020年是《国家新型城镇化规划(2014—2020年)》收官之年,也是政府工作报告首次提出“两新一重”概念的开局之年,更是对冲疫
扁平化设计自2011年成为一种流行的界面设计风格。扁平化设计的核心意义是去除冗余和繁杂的装饰效果,具体表现为去掉了多余的阴影、纹理、渐变等3D效果,从而凸显核心信息本身
在大数据时代背景下,旅游景区营销需要进行转变与调整。本文以广西三江侗族自治县程阳八寨景区为例,分析旅游景区的现状以及存在的问题,提出利用大数据技术为背景,以旅游景区
地球只有一个,保护环境,爱护地球,给子孙后代留下一片蓝天碧水,是全世界人民所向往并为之奋斗的共同目标.废弃电池对环境的污染已是一个不争的事实,关注电池的回收再利用,实
自良镇位于广西壮族自治区玉林市容县北部,距县城32千米,与梧州市藤县、岑溪毗邻,容藤公路穿境而过,自良镇总面积104平方公里,沙田柚是容县的一大农业品牌,而自良镇沙田柚种