热门微博话题事件主题聚类分析

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lx2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的社会中,以互联网为载体,产生了与电视、报纸、广播等传统媒体近乎对等的网络媒体,这些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一,典型的代表有网络视频网站、微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过这些平台,网民随时随地发表身边的新鲜事,或者发表对热门微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许多有价值的信息。因此对这些平台上的内容进行研究,有着许多重要的意义,比如舆情分析、新媒体营销、品牌维护等。微博是基于关注关系形成的社交网络,用户可以发表少于140个字的文本,对别人的微博进行点赞、评论、转发。随着近几年的发展,用户数快速增长,每天都会生成海量的数据。随着数据量的爆炸式增长,用户越来越感觉到,从这些数据中获取自己关心的有价值的信息越来越难。第一,微博内容五花八门,良莠不齐,充斥着许多垃圾信息;第二,对于特定事件,每个人看问题的角度或者目的不同,掺杂的情感也不同,所以都会有一些不同的看法;第三,随着事件讨论热度变化,或者一些新的情况出现,事件的舆论发生改变,如何准确获取这些演变,也是一个值得研究的问题。对微博的分析研究,有助于我们发现其中蕴含的-舆论观点,感情倾向,为决策和预测提供可靠而宝贵的信息支撑。本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法,文本挖掘的相关理论。接着详述了LDA (Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良特征;2.使用LDA主题模型对数据建模,然后进行主题聚类,分析主题的变化,提出了主题词及其权重作为二元组的元素结合动态阈值进行新主题发现的方法;3.提出了“一篇短文本有且仅有一个主要主题”假设。基于这个假设,使用文本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了一种先主题聚类再文本分类的方法。实验中,面向有关巴黎恐怖袭击微博数据和百度知道数据,采用本文提出的算法,对实验结果进行分析,以验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题,这些新主题对应着话题下的一些热门子话题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。
其他文献
随着移动设备的普及和无线网络的发展,使用移动设备获取服务的方式日益普及,用户使用移动端访问服务器来获取服务将变得越来越流行。与此同时,服务器来获取用户的隐私信息也
随着新一代的软件构架模型SOA的流行,Internet环境下基于Web服务的企业级的应用系统正在成倍增长,Web服务也渐渐步入市场化。能让用户准确、高效的调用这些Web服务是当前的一
软件复用技术是近年来国内外软件界研究的热点,实现软件复用的关键技术之一就是构件描述和检索技术,对构件的静态特性和动态行为做出准确、全面的描述,并提供良好的检索方法
目前WiMAX网络存在如何完成跨越网关的快速切换、降低切换时延和丢包率的问题,针对上述问题,采用MIP方式实现不同AGW之间的不同BS之间的切换,以降低切换时延和丢包率。   探
随着因特网技术的发展,用户对带宽需求的增加造成了骨干链路拥塞以及响应时间过长的问题。缓存技术应用在节省网络开销,提高用户查找命中率,减轻初始资源服务器的负载等方面发挥
由于无线传感器节点的能源、计算能力和带宽都非常有限,传统的无线路由协议不适合无线传感器网络。无线传感器网络路由协议设计的首要目标是有效节约能源,最大限度的延长网络生
随着Internet的迅猛发展,客户需求越来越多,NGOSS(New Generation Operation Software and System,新一代运营软件和系统)软件越来越复杂。目前NGOSS软件的体系架构能提供分层分
随着无线网络技术的发展,移动自组织网络(MANET,Mobile Ad Hoc Networks)及其应用受到很多的关注。传统上移动自组织网络主要应用在军事、抢险救灾等领域,在商业接入领域仍没有进
密码学不但能够提供信息的保密功能,而且还可以确保信息的完整性和不可否认性,能有效地防止信息的篡改和伪造。随着计算机和计算机网络的快速发展,电子签名扮演着越来越重要的角
随着计算机技术的快速发展,增强现实(Augmented Reality)技术得到了广泛的应用。增强现实利用虚实结合技术实现了场景的交互,在工业、娱乐、军事、科研以及日常生活中具有广