论文部分内容阅读
在当今的社会中,以互联网为载体,产生了与电视、报纸、广播等传统媒体近乎对等的网络媒体,这些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一,典型的代表有网络视频网站、微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过这些平台,网民随时随地发表身边的新鲜事,或者发表对热门微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许多有价值的信息。因此对这些平台上的内容进行研究,有着许多重要的意义,比如舆情分析、新媒体营销、品牌维护等。微博是基于关注关系形成的社交网络,用户可以发表少于140个字的文本,对别人的微博进行点赞、评论、转发。随着近几年的发展,用户数快速增长,每天都会生成海量的数据。随着数据量的爆炸式增长,用户越来越感觉到,从这些数据中获取自己关心的有价值的信息越来越难。第一,微博内容五花八门,良莠不齐,充斥着许多垃圾信息;第二,对于特定事件,每个人看问题的角度或者目的不同,掺杂的情感也不同,所以都会有一些不同的看法;第三,随着事件讨论热度变化,或者一些新的情况出现,事件的舆论发生改变,如何准确获取这些演变,也是一个值得研究的问题。对微博的分析研究,有助于我们发现其中蕴含的-舆论观点,感情倾向,为决策和预测提供可靠而宝贵的信息支撑。本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法,文本挖掘的相关理论。接着详述了LDA (Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良特征;2.使用LDA主题模型对数据建模,然后进行主题聚类,分析主题的变化,提出了主题词及其权重作为二元组的元素结合动态阈值进行新主题发现的方法;3.提出了“一篇短文本有且仅有一个主要主题”假设。基于这个假设,使用文本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了一种先主题聚类再文本分类的方法。实验中,面向有关巴黎恐怖袭击微博数据和百度知道数据,采用本文提出的算法,对实验结果进行分析,以验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题,这些新主题对应着话题下的一些热门子话题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。