论文部分内容阅读
情感分析,又称观点挖掘,是指利用自然语言处理、文本分析、计算语言学等技术与手段,分析书面语言中的情感、观点、态度和表情的重要方法。情感分析是自然语言处理领域非常重要的一个任务,它可以为政府、企业、消费者提供全面且科学的决策依据,因此受到了广泛关注。根据文本层次的递进关系,我们可以将被研究的文本分为要素级别、文档级别和多轮次对话级别。本文针对这三个级别,分别对要素信息利用不充分、模型可解释性弱、高质量对话级别情感分析数据集缺失等关键问题展开了研究,取得了具有一定理论意义和应用价值的成果。本文的研究内容包括:·基于注意力机制的特定要素情感分类。针对特定要素情感分类,我们提出了ATAE-LSTM模型,该模型证明要素类别可以显著影响该级别的情感分析。ATAE-LSTM可以针对输入要素的不同,注意到输入文本中与该要素相关的部分,并抑制不相关的部分。此外,ATAE-LSTM可以注意到要素相关的文本中对情感分析具有重要影响的部分。·基于胶囊网络的要素情感协同分析。由于ATAE-LSTM模型需要将要素信息作为输入,这限制了该模型进一步的应用。受胶囊结构启发,我们提出AS-Capsules模型,该模型不需要将要素信息作为输入,弥补了以往模型应用受限的不足。更重要的是,AS-Capsules不仅不需要将额外的语言学知识作为输入,还可以输出具有可解释性的统计结果。·基于胶囊网络的文档级别的情感分析。Hinton在2011年提出了胶囊结构的概念,该结构有更加丰富的表现能力。受此启发,本文提出RNN-Capsule模型,这是第一个将胶囊结构应用在自然语言处理,特别是情感分析领域的工作。此外,该模型具有较强的可解释性,不仅不依赖语言学知识,还可以输出能够反映情感倾向的统计学词表。·基于上下文的多轮次对话级别的情感分析。针对目前对话级别情感分析数据集缺乏的问题,我们基于客户服务的对话场景,构建了Emo-Int-Dialog数据集,该数据集具有话语级别和对话级别的细粒度情感标注信息。基于此,我们提出了Chat-RNN模型,该模型可以有效利用对话的层级结构和细粒度的情感信息,大幅提高了对话级别情感分析的性能。