论文部分内容阅读
目前情感分析的工作主要集中于对文本情感进行分类,但对发现文本情感产生原因的研究较少。文本情感原因发现主要研究自动识别文本中激发群体或个体情感的因素或事件的方法。目前情感原因发现方法大致可以分为基于规则的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则的方法存在覆盖率低、通用性差的问题。基于统计机器学习的方法存在需要大量繁琐的特征筛选的不足。基于深度学习的方法则往往受到缺乏大规模标注数据的困扰。为此,本文从单语言情感原因发现模型改进和跨语言情感原因发现两个角度出发,研究提高文本情感原因发现性能的方法。本文针对现有情感原因发现模型往往忽略文本情感表达与情感原因之间关系不足,提出一种基于门控循环单元(Gated Recurrent Unit,GRU)、卷积神经网络(Convolutional Neural Network,CNN)以及层级注意力机制的情感原因发现方法。该方法采用门控循环单元加卷积神经网络来捕获文本序列块语义信息,结合注意力机制来对情感表达与情感原因之间的关系进行显式建模。在EMNLP2016公开数据集的实验结果显示,该模型的F1值超出目前效果最佳的记忆网络模型0.4个百分点。针对情感原因标注语料库规模较小的问题,本文研究了跨语言文本情感原因发现方法,将相对丰富的源语言情感原因标注文本迁移至语料匮乏的目标语言,通过引入更多的训练数据提高原因发现性能。本文提出了基于迭代法增广数据的跨语言情感原因发现方法。该方法通过机器翻译的方法获得目标语言候选训练数据,用训练好的情感原因分类器,对候选训练数据进行分类;而后将预测正确的数据加入训练集后对分类器重新进行训练,用于对预测错误的数据重新分类。通过迭代地进行数据增广和分类器训练,提高情感原因发现性能。该方法在EMNLP2016数据集上F1值优于记忆网络模型1.21个百分点。考虑到基于迭代法增广数据的跨语言情感原因发现方法受机器翻译性能影响较大,本文进一步研究了基于对抗训练的跨语言情感原因发现方法。此方法中,特征抽取器通过与判别器的对抗博弈以及情感原因分类器的梯度反向传播学习语言无关而与情感原因发现任务相关的特征。该方法在基于迭代法增广数据方法的基础上F1值进一步提高了1.29个百分点,达到了该数据集目前已知最好性能。