论文部分内容阅读
随着网络的迅速发展,越来越多的人习惯通过网络来表达自己的观点和态度,对这些观点进行收集和分析能够带来很大的应用价值。比如电商平台通过对评论的情感分析,能够了解购买者的喜好,推荐更加合适的产品。社交平台可以通过对群众观点的情感分析,了解大众的对于某些事件的情感倾向性,从而掌控群众的舆论导向,相关部门可以更好的进行舆情监控……本文以常用社交软件——微博为例,对微博文本进行情感分析。微博文本与传统文本有所区别,微博文本更加简洁多样,属于非正式文本,含有大量缩写、新词等,这就导致较为传统的基于情感词典的情感分析方法很大程度受限于词典的完善性。在较新的技术中,基于深度学习的方法则很大程度的受到样本数量的限制,当样本数量较少时,神经网络训练不够充分,难以取得较好的结果。针对上述问题,本文提出了融合两种不同方法的结果以提升效果的思路,同时对两种方法进行优化改进。具体工作如下:(1)在较为传统的基于情感词典的情感分析中,本文提出通过语义相似度对情感词典进行扩展的方法提升基于情感词典进行情感分析的结果。应用同义词词林对情感词典进行扩展;基于Word2Vec对情感词典进行扩展;设计融合的多种关系信息的语义表示方法,该方法可以丰富词语的语义向量空间,通过向量空间中的距离寻找相关词对情感词典进行扩展。这些方法很好的弥补了微博情感词典中缺少的缩写、新词和口语化词汇等空缺,通过实验可以看出更加完善的情感词典有效地提升了基于情感词典进行情感分析的结果。(2)针对近些年来在各个领域表现优秀的深度学习算法,通过初步尝试选择了双向门控循环单元神经网络(BGRU)进行情感分析,实验结果表明当训练样本数目过少时,神经网络模型不能充分训练,会导致分类结果较差。针对这一问题,我们注意到BGRU模型没有考虑到训练过程中每个词的权重问题,这就忽视了每个词对句子整体情感的影响因子是不一样的,所以本文在BGRU模型中,引入了注意力机制,将决定整句情感的重要单词赋予了更高的权重,完成了BGRU-Attention模型。实验结果表明这种模型的结果比基于支持向量机的模型和单一的双向门控循环单元的神神经网络模型有着明显的提升。(3)最后本文尝试将传统的方法和新兴的算法相结合,用情感词典得到的结果对深度学习的得到的结果进行强化,实验结果表明这种方式可以有效地提升情感分类的性能,尤其是针对语料较少不能充分训练的情感类别。