论文部分内容阅读
近年来随着互联网技术的快速发展,包括微博、即时通讯工具在内的新型社交媒体已从根本上改变了人们的生活方式。以微博为主的带有个人情感色彩的言论信息正迅速发展,深入了解和挖掘微博情感信息,为政府、商家等机构进行微博营销、品牌调查、网络舆情监控提供支撑,具有重要的社会意义和商业价值。情感分析在信息科学中,是指利用自然语言处理、机器学习等技术对作者主观情感倾向的分析研究。微博情感分析是其中的热点问题,主要有两种方法:基于情感词典和基于机器学习。但中文微博在文本长度、表达方式、语言风格等方面与传统文本有着较大区别,传统的机器学习方法无法保留情感特征之间的关系;而基于情感词典的方法,目前又找不到覆盖面较好的可用中文情感词典。针对传统研究中存在的不足,本文主要利用了改进后SO-PMI算法和主题-情感混合模型来构建适合中文微博情感分析的中文微博情感词典,涉及的主要工作有以下几个方面:(1)针对现有情感词典在微博情感词覆盖度低的问题,整合现有情感词典资源,构建了一个基础情感词典;同时提出了利用距离互信息和拉普拉斯平滑技术来改进SO-PMI算法对微博领域情感词典进行构建。并通过实验验证了本文提出的算法在微博情感词语的倾向性判断上,相比于传统方法在准确率上有了较大的提升。(2)研究文本情感分析中基础情感词情感倾向与描述主题的关系,提出主题-情感混合模型。该模型假设微博语料库中的每条微博文本都只符合一种主题-情感分布,利用模型生成文档的过程中输出主题-情感词,从而解决了同一情感词搭配不同主题表现出不同情感倾向的问题。将主题-情感词整理添加到中文微博情感词典中。(3)利用实验验证了利用本文构建的中文微博情感词典在进行微博文本情感分类上的效果要明显好于现有的情感词典,从而验证了本文提出的构建中文微博情感词典的方法的有效性。