论文部分内容阅读
情感分析是自然语言处理领域的基础任务之一,目的是分析文本表达的情感倾向。近年来,随着互联网和移动互联网的发展,各类社交平台和电商平台积累了大量用户产生的文本数据,分析这些文本数据对于提升社交平台和电商平台的服务质量有积极作用。相较于传统基于统计的情感分析模型,基于深度学习的模型广泛提高了情感分析模型的性能和鲁棒性。针对基于深度学习的情感分析的相关问题,主要工作包括以下几点:1.基于域适应的粗粒度情感分析,深度学习模型训练数据不足是一项基本问题,本文尝试通过域适应的方法解决这一问题。基于对抗训练的共享-私有模型在源域数据上训练共享特征提取器和特有特征提取器。其中共享特征提取器可以直接用于无标签的目标域。然后选择合适的源域通过对抗训练迁移特有特征信息到目标域。最终串联共享特征向量和特有特征向量两部分特征向量,完成粗粒度情感分析。相比之前的方法,通过域适应弥补了特有特征信息的损失,Amazon评论和FDU-MTL两个数据集上均取得了领先的结果。2.针对细粒度情感分析的分支方面级情感分析任务,本文采用双向LSTM分别编码上下文和方面词,引入位置权重向量,针对以往注意力机制计算时平均池化操作带来的信息损失,使用了词级别的注意力机制。在SemEval 2014的餐厅领域和笔记本领域,Twitter数据集等三个标准数据集上分别取得了79.9%,72.9%和71.0%的准确率,较所有基线模型均取得了明显提升。并且对测试集预测错误的样本做了总结和分析。3.针对方面的情感分析包括方面词实体抽取和方面词情感分析两个子任务,通常的研究独立处理这两个子任务。而从实际应用场景和任务相关性角度出发,同时处理两个子任务是更好的解决方案。本文尝试通过端到端的模型解决完整的方面级情感分析任务。采用了统一标注模式,将完整任务当作序列标注任务处理。使用预训练模型BERT编码上下文,针对不同的下游网络进行了实验。实验证明了基于序列标注的统一标注方案相较于流水线模型性能更好。基于BERT的模型采用微调的方式能获得显著的性能提升。由于序列标注任务的特点,BERT-SAN和BERT-TFM等基于自注意力机制的网络效果更好。