论文部分内容阅读
随着社会媒体平台的普及,越来越多的人喜欢通过网络对人物、事件、产品等信息发表评论并表达个人的观点。在此背景下,微博客作为一种新兴的社会媒体,发展迅速,在短短几年的时间内即拥有了大量的用户群体。微博客中包含了大量的用户主观发表的有价值的评论信息,这些信息表达了用户的各种情感,因而针对微博客的情感分析在网络舆情分析中起着非常重要的作用。但是,目前针对微博客的情感分类大多是诸如“正、反”或“正、中、反”这种粗粒度的,本文针对微博客的特点,着重研究微博客的细粒度情感分析技术和相关问题。首先,研究面向微博客细粒度情感分析的微博客相似度计算。由于微博文本的简短性,两条微博中出现的相同的特征词数量极少,因而简单使用TF-IDF方法得到的向量空间模型的向量值非常稀疏,相似度的计算结果不理想。为降低微博特征词稀少对相似度计算的影响,本文采用基于LDA模型,计算得出微博数据的主题—词概率分布,通过计算两条微博互异特征词的主题相关度,更新相应特征词的向量值的方法。最后通过余弦相似度的方法计算两条微博的相似度。实验证明了此种方法的相似度计算是有效的。同时,在实验前,对数据进行删除垃圾微博及无用字段处理及分词和删除停用词等预处理以得到实验所需的纯净数据,并将微博所表达的细粒度情感划分为“高兴”、“喜爱”、“伤心”、“焦虑”、“愤怒”五类,以具有细粒度情感标注的表情符号词典为基础对微博数据进行情感标注,得到最终的实验数据。其次,研究基于贝叶斯定理的微博客细粒度情感分析。以训练数据为基础,首先训练得出每个特征词属于每种情感的概率,然后计算出每条微博具有每种情感的概率值,最后计算得出微博客的细粒度情感序列。通过实验证明基于贝叶斯的方法对微博客细粒度情感分析具有较好的效果。然后,研究基于K近邻的细粒度情感分析。以微博相似度计算为基础,得到每条微博的K近邻。通过测试数据与近邻微博的相似度及近邻微博的情感序列,计算得出微博所表达的细粒度情感序列。通过实验证明K近邻方法对微博客细粒度情感分析具有比较好的结果。最后,针对基于贝叶斯定理和K近邻的细粒度情感分析各自的特点,研究结合贝叶斯定理的K近邻细粒度情感分析。以微博相似度计算为基础,分析统计训练数据中每条微博情感序列与它的K个近邻的情感序列的概率分布,然后根据测试数据的K个近邻的情感序列计算出测试数据表达和不表达每种情感的概率,通过比较概率大小得到最终的情感序列。通过实验证明结合贝叶斯定理的K近邻方法是有效的,且获得了与其他方法相比最好的结果。