论文部分内容阅读
随着移动互联网的迅猛发展,越来越多的网民在社交平台上阐述自己的观点,在新闻平台上发表自己的看法以及在电商平台上对产品进行评论,由此产生了大量的带有情感信息的评论文本数据,对这类文本数据进行情感分析具有重要的意义。情感分析从粒度上可以分为三类:文档级别、句子级别、评价对象级别。其中,文档级别和句子级别是判断整个文档或句子的情感倾向,属于粗粒度的情感分析,而评价对象级别的情感分析旨在判断给定的评价对象在句子中的情感倾向。在情感分析的应用场景中,对于部分新领域,往往没有标注的训练数据,而人工标注数据是十分耗时的,因此跨领域的情感分析是近年来的一个研究热点。本文以面向评价对象的细粒度情感分析任务为基础,通过深度迁移学习技术解决目标领域标注数据不足的问题。本文的主要研究工作如下:(1)本文首先分析现有细粒度情感分析方法的不足,然后对现有的方法进行改进,提出了融合多种词表示方法与多种注意力机制的细粒度情感分析方法。考虑到现有的研究方法在词表示层面上往往采用静态的词向量,这类表示方法无法解决一词多义的问题,因此本文将融合字符级别(Character-level)、词级别(Word-level)以及上下文级别(Context-level)等不同粒度的信息对词的表示。考虑到评价对象词与评论文本的关系,本文采用多种注意力机制(包括自注意力机制、协同注意力机制)增强上下文的表示;在输出层,考虑到评价对象词在评论中往往与情感词距离很近,因此本文将位置信息融合到模型中。实验表明本文提出的方法相较于基准方法能更准确的实现细粒度的文本情感分类。(2)针对于某些新的领域缺乏标注数据的问题,本文提出一种基于深度迁移学习与半监督学习方法融合的框架来解决跨领域问题,使用源领域中的标注数据,学习领域之间的共享知识,并将其迁移到目标领域中。本文使用预训练的BERT模型对上下文进行编码,使用KL散度特征分布的距离进行度量,从而解决领域之间的特征自适应问题。现有的跨领域方法都大多没有利用目标领域的未标注数据,本文使用半监督学习的方法,利用未标注数据增强模型对未知数据的泛化能力。具体的,使用熵最小化(Entropy Minimization)对模型进行约束,鼓励模型在无标签数据上输出高置信度的预测结果;使用一致正则化(Consistency Regularization)以及回译(Back-translate)的策略,使得模型对噪声不敏感。实验表明,本文提出的迁移方法能够有效的解决跨领域的问题并且当模型融入半监督方法之后,可以很大程度的提升在目标领域的预测效果。