论文部分内容阅读
作为近年来快速发展的社交网络平台,微博由于易操作,传播快,灵活度高等特点,已得到用户的普遍推崇和使用。虽然用户发布的微博内容很繁杂,但通过对其观察和分析发现,其中潜藏着大量的有用信息,尤其是微博文本中包含的情感倾向,有助于政府和企业了解大众需求、引导舆论、发现商机、提高收益。目前,针对微博文本的情感分类研究越来越受到相关领域学者的关注。如何学习深层语义、有效表示文本特征、提高情感分类效果一直是相关领域要研究的目标。本文主要研究了微博文本情感分类的两大方面:微博文本主客观分类和微博文本情感极性分类。在主客观分类阶段,提出了基于词典和语料相结合的方法。在情感极性分类阶段,对微博文本的特征提取方法和分类算法分别进行了研究。其中,针对特征提取,提出了基于浅层和深层学习的特征融合方法;针对分类算法,提出一种基于改进的递归神经网络的情感分类方法。本文的主要工作和创新成果具体如下:(1)针对微博文本的主客观分类问题,提出了基于词典和语料相结合的方法。首先根据本文所构建的可靠情感词典对可靠度较高的主观性文本进行识别,然后结合语料统计的方法对剩余文本进行主客观分类,最终得到的F1值比传统的基于大规模情感词典的主客观分类方法要高出6.72%。(2)鉴于一般的浅层学习特征忽略了文本内在语义,提出一种基于浅层和深层学习的特征融合方法。其中浅层学习特征选取了词、词性和词典这三类特征,深层学习特征利用word2vec工具进行提取,然后对它们进行融合。实验结果表明,特征融合后的微博文本情感极性分类效果要优于仅采用其中任何一种特征的效果。(3)针对微博文本的情感极性分类问题,采用一种改进的递归神经网络模型。该模型将一般递归神经网络的隐藏层替换成LSTM结构,使得在情感分类过程中,不仅把文本序列前后的相关性考虑在内,而且能够学习到文本中距离较远的相关信息。实验最终得到85.04%的分类准确率,比传统的采用基于浅层学习特征的支持向量机方法提高了3.17%。