论文部分内容阅读
以往的情感分类大多是基于粗粒度进行的,针对五分类进行的研究不多,且最终的情感分类结果只包含一种情感,很少对多情感共存现象进行研究,因此不能完全体现用户情感的丰富性。研究学者使用Attention机制对单语或双语文本的研究技术也取得了不错的成效,但鲜有针对语码转换文本(Code-Switching Text)的情感分类进行研究。针对这些不足,本文提出一种基于Attention与BiLSTM模型的多情感分类方法,通过BiLSTM模型构建五个情感分类器来获取文本上下文关系,分别是Happiness、Anger、Sadness、Fear、Surprise情感分类器,从而预测出单个帖子所属的所有情感。使用word2vec的Skip-gram方法将语码转换文本转化成词向量来作为多情感分类器的输入,并采用负采样方法提高词向量的质量、加快训练速度,针对不同词对文本的权重不同引入Attention机制来表示不同特征的重要性,增强上下文语义信息,并获取更深层次特征,最后通过Softmax进行回归,完成所有帖子所属的所有情感预测。通过对基于Attention与BiLSTM模型的实验结果进行分析,发现Surprise和Fear情感分类器的性能明显低于Happiness、Anger、Sadness情感分类器,分析原因为语码转换文本存在类别不平衡问题,由于数据量小的类别在训练模型时特征不明显,导致将数据量小的类别预测为数据量多的类别,降低了情感分类准确率。为了解决上述问题,本文提出一种改进的基于Attention与BiLSTM模型的多情感分类方法研究。使用新浪提供的API抓取微博中的语码转换文本数据,邀请20名自然语言处理领域的同学对抓取的数据类别进行标注,从中有目标的选取五种类别的数据,比如选取同一个帖子包含多种情感的数据,每个类别数据量统一为2000条,使得语码转换文本达到类别平衡从而对语码转换文本进行扩充。使用伪梯度下降法调整模型参数,对交叉熵损失函数进行优化,降低复杂度,使得模型的分类性能更稳定。实验证明,改进的基于Attention与BiLSTM模型的多情感分类方法研究与未改进的算法相比,缓解了少数类被错分成多数类的问题,Marco-F1值提高了11.4%,且每个情感分类器的F1值均有很大的提高,减小了Surprise、Fear情感分类器的F1值与其它三个情感分类器F1值的差距,因此改进的基于Attention与BiLSTM模型的多情感分类方法研究可以更为准确的判别文本的多种情感,取得了更好地分类效果,验证了模型的有效性。