论文部分内容阅读
互联网的快速发展方便了人们的沟通交流,众多的网民通过微博,微信等公开平台发表自己的言论,由此产生大量具有主观情绪的社交网络数据。情感分析技术通过分析、研究大量社交网络数据,挖掘出其潜在的信息,以此来分析网民对社会热点话题的关注度和情感倾向情况,从而为相关部门的政策制定提供支持及正确引导网民的情绪传播。早期情感分析领域研究的文本主要集中在新闻,博客等长文本数据,随着新浪微博,微信等社交网络的迅速发展,基于产品评论、电影评论、社会热点事件评论等短文本情感分析逐渐成为情感分析领域的研究热点之一。伴随着研究的不断深入,针对短文本的粗粒度情感分析现已较为完善,但细粒度的情感分析还有很大的发展空间。然而,针对细粒度的中文评论情感分析数据集还很缺乏。基于这一问题,本文以新浪微博平台中的社会热点话题的微博评论为研究对象,分别爬取了不同话题的评论数据,包括计划生育二胎政策、扶贫政策、环保事件以及雾霾事件,并依据一定的数据处理准则和标注标准对数据集进行了预处理和细粒度的情感标注,从而得到了面向不同话题的情感分析数据集。在此基础上,本文构建了基于卷积神经网络(CNN)和双向长短期记忆网络(BLSTM)特征融合的情感分析模型CNN-BLSTM,该模型基于现有模型中将卷积神经网络建模和循环神经网络(RNN)建模分离的状况,提出将CNN提取的短语特征和BLSTM提取的序列特征结合,用于有效地增强对文本信息的提取能力。鉴于文本中特定情感词对文本情感分析具有更重要的影响,本文在CNN-BLSTM模型的基础上,进一步提出CNN-BLSTMATT模型,该模型通过引入注意力(attention)机制,将CNN提取的局部特征表示引入到BLSTM模块的情感特征表示上,有效增强了BLSTM对情感语义信息的捕获能力,从而达到文本情感特征增强效果。最后,在构建的数据集和公开的英文数据集Stanford Sentiment Treebank(SST)[1]上的实验结果表明,本文提出的CNN-BLSTM模型比使用单一的CNN或者BLSTM模型能取得更好的实验效果。此外,本文提出的(CNN-BLSTMATT模型相较于CNN-BLSTM模型,在显式情感表达的文本中具有更好的情感分类精度。