论文部分内容阅读
随着互联网发展的智能化和数字化,各种网络社交、购物平台快速发展起来,人们也更加热衷于通过这些平台来发表自己的意见观点。每天互联网都会产生海量的非结构化文本信息,其中包含了用户对人物、事物和事件的看法、态度等。对这些文本数据进行有效的管理,并从中发掘出有价值的情感信息,有助于促进网络舆情分析、医疗应用、企业管理以及商品营销等各领域的发展。在文本情感分类任务中,基于情感词典和机器学习的方法,适用于文本语料数据量较小并且文本语义简单的情形。随着网络文本信息的爆炸式增长,表达方式的不断丰富,许多研究者逐渐将深度学习方法应用到文本情感分类,并取得突破性进展。卷积神经网络(Convolutional Neural Networks,CNN)能够有效捕获空间结构上的局部特征信息,但缺乏学习单词上下文相关性的能力。循环神经网络(Recurrent Neural Network,RNN)能够较好地解决语义上下文问题,但是在训练过程中容易出现梯度爆炸和梯度消失的现象。针对这些问题,设计基于LSTM(Long Short-Term Memory)的中文文本情感分类模型,用于文本表示和情感分类。本文在分析文本表示方法以及深度学习模型的基础上,对如何有效表达文本情感信息以及合理构建网络模型进行了深入研究。主要研究工作如下:(1)文本情感分类研究的梳理在深入研究自然语言处理领域文本情感分类的相关概念和理论的基础上,梳理了文本情感分类的基本过程,并详细解释了文本情感分类过程中所用到的基本理论和相关技术。(2)改进单特征输入的文本情感分类模型构建基于多特征表示的文本情感分类模型,用于文本情感分类的研究。针对中文文本的特殊性以及词表示方法对于情感表达的局限性,在获得单词词义向量的基础上引入情感向量。构建包含情感向量的单词多特征表示作为LSTM中文文本情感分类模型的输入,在一定程度上弥补了单词词义向量对于情感信息表达不足的缺陷。(3)基于词影响权重的文本情感分类模型为进一步强调文本情感信息的表达,在构建多特征表示模型的基础上添加词注意力层,突出情感贡献度较大的单词,提高关键词区分化对文本分类的影响。此外,构建词-标签关系网络模型,获取更深层次的标签依赖性,丰富了文本的特征信息。(4)面向中文文本进行情感分类实验为验证本文方法的有效性,在不同数据集上进行对比实验,并对实验结果进行了分析和总结。实验结果表明,本文提出的LSTM+DW+Attention+关系模型能够有效区分不同情感类别的文本,一定程度上提高了分类准确率。