微博热点话题发现研究与实现

被引量 : 0次 | 上传用户:zyx_xingfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展以及移动互联网的全面普及,网民们相互沟通了解的方式越来越多样化。微博作为一个新兴的平台,以其独特的灵活性和便捷性,更加受到网民的青睐。微博给人们生活带来极大便利的同时,也产生了一些副作用,例如一些人使用微博蓄意传播假消息,给社会安定造成不良的影响。如果能够及早发现这些话题,就能及时采取相应的措施。对用户来说,用户只能看到自己主页上的微博消息,无法了解到整个微博网络中大多数用户都在讨论或者关注哪些事件。因此,及时发现微博热点话题是非常有意义的。本文定义了话题的热度,从定量的角度来表达热点话题,对于某个话题来说,包含的微博发布时间越晚,评论数和转发数越多,该话题的热度越高,越有可能是热点话题。国内外大量学者都在热点话题发现上做了许多研究,总结出来大致有聚类算法、LDA模型、情感模型三种方法,或者是在此基础上进行改进。本文在研究微博热点话题发现的过程中,首先需要解决微博语料的问题,传统的网络爬虫无法适用于微博信息抓取,而且微博API也只能抓取本人微博主页上的微博信息,无法获取大量的微博信息,所以本文根据微博用户之间相互关注的关系获取大量用户信息,然后抓取这些用户最新发表的微博信息。接下来需要对微博进行预处理,包括过滤垃圾微博信息、分词、去除停用词、无用信息过滤、特征词提取、特征权重计算,为每一条微博文本生成特征向量。最后针对微博不断增加的特点,选择适合的Single-Pass增量聚类算法,得到多个簇,每个簇代表一个话题,每一个话题下包含许多条微博。为了从话题中选择出热点话题,文中定义了话题的热度,发布时间越晚、评论数和转发数越多的话题,热度越高,成为热点话题的可能性越大。从大量学者的研究中发现,LDA主题模型也能够用来发现话题,但是它需要多次迭代,处理大量数据时运行时间比较长。不过LDA主题模型在主题表达方面比较有优势,所以本文将Single-Pass算法与LDA模型结合起来,先利用Single-Pass聚类算法对微博文本聚类,然后利用LDA算法处理每一个簇,最后得到微博热点话题,这样比单独使用Single-Pass能生成更加准确的话题,比单独使用LDA模型处理速度更快。
其他文献
面对日趋激烈的市场竞争与质押物价格风险,传统的存货质押融资业务受到了挑战,银行迫切需要开拓新的存货质押融资模式来扩展业务和控制贷款风险。核心企业回购担保下的存货质押
马克思主义关于人的全面发展学说是确定我国教育目的的理论基础,我国大力推进高校人文素质就是依据人的全面发展的需要。自上世纪我国提倡的“教育要面向世界、面向未来、面
自一九八零年第一届全国舞蹈大赛获得一等奖的两部作品——双人舞《再见吧!妈妈》、三人舞《金山战鼓》——之后,中国的叙事性舞蹈已经走过了三十多个年头,现如今叙事性舞蹈
新时期文学,经历了80年代精神的救赎与信仰的重建,90年代价值观的裂变与重塑以及新世纪文学的多样式发展,在不断发展壮大的同时也存在着人类精神世界的荒芜问题。在这样的文学场
相对于古老成熟的建筑学,“室内环境设计”实在是一门太幼稚的学科。但是,从其诞生之日起,随着人们生活水平越来越好,对居住环境的要求也就越来越高,室内环境设计也就凭借着经济发
生态中心主义作为当今环境伦理学中的一个举足轻重的流派,是在人类处于全球环境生态危机的困境之中提出的,是一种把价值体系通过现代生态学的研究方法建立在整个生态系统当中
无乳链球菌已成为近年来罗非鱼细菌性疾病中重要的致病菌,给罗非鱼产业造成了极大的经济损失。目前引起罗非鱼链球菌病的致病菌主要有海豚链球菌和无乳链球菌。本研究对广西8
电影发展至今,视觉和听觉两种感官作为我们感知艺术的主要渠道,科技的发展使得电影影像在图像精度和色彩饱和度等方面更加贴近真实,极大提升了电影在感官方面和表达形式上的
目的:探讨Toll样受体4(Toll like receptors4,TLR4)∕核因子-κB(Nuclear factor kappa B,NF-κB)信号通路对人膝骨关节炎滑膜成纤维细胞骨桥蛋白表达的影响。方法:收集10例接受膝关
3月12日在佛罗里达州奥兰多市举行美国心脏病学科学年会(ACC.18)发布了一项临床临床试验证实卵圆孔封堵系统可有效预防继发性脑卒中。这是一项随机对照试验,120例卵圆孔未闭(