论文部分内容阅读
随着Internet技术的迅速发展,网络不仅是人们获取信息的重要来源,也逐渐成为人们表达个人观点和分享自身体验的最佳平台,“阅读式的网络”逐步转变成“交互式的网络”。网络中充斥着海量的、由用户自主发布的文本信息,这些文本或是用户对某个产品或服务的自主评价,或是公众对某个新闻事件、国家政策的个人观点等。如果能够充分利用这些数据,可以为政府舆情监测、企业市场分析等多个应用领域提供帮助。然而,这些数据每天以指数级的速度增长,仅仅依靠人工的方式对其进行挖掘和分析需要消耗大量的人力和时间,如何通过有效的手段从海量的网络资源中获取我们所需要的信息?文本情感分析技术应运而生。文本情感分析是目前计算机领域研究的热点之一,旨在通过计算机技术自动地分析出文本中的态度信息,对文本的情感倾向性做出分类判断。本文调查分析了中文文本情感分析领域的研究现状,针对该研究领域中存在的问题和不足展开研究,主要研究内容和创新点包括:(1)针对网络词语的流行和使用给情感分析带来的困难,提出了一种基于词向量的词语情感倾向性判断方法。借助语言模型的训练,采用词向量表示词语,从语料本身挖掘词语之间的相似性,根据词向量的相似度来判断未知词的情感倾向性,有效解决了传统情感词典的不完善和难扩充的问题。(2)结合第一部分的基于词向量的词语情感分析方法,提出了一种融合句法树和语义规则的中文句子情感倾向性分析方法。一方面充分考虑了句子的句法信息,在句子的句法树结构上实现对句子的分析,另一方面针对句子情感极性转移现象,结合否定词、程度词、转折词等影响句子情感极性的特征,定义了相应的语义规则,有效提高了句子情感倾向分析的正确率。(3)针对微博语句情感多元化以及微博文本涉及领域广泛的特点,采用基于递归神经网络的方法对微博话题评论语句进行情感多分类分析,通过Softmax分类器识别微博文本中所反映出的言论表达者的喜、怒、哀、惧、恶、惊的情绪。在此基础上,根据句子中的程度副词对句子进行情感加权,实现对微博话题的情感倾向分析,从而预测微博话题的发展趋势。