论文部分内容阅读
目前,情感分析是自然语言处理中最活跃的研究领域之一。反讽是一种隐式情感表达的修辞手段,通过使用与实际意图相反的词来达到讽刺或者幽默的语言表达效果。反讽的真实语义无法通过文本词汇直接推断出来,它的字面意思和真实意图存在着矛盾冲突,因此,反讽识别及其情感判别更具挑战性。以往的文本情感分析往往忽略了这一语言现象,影响了情感分析的准确率。为了提升文本情感分析的准确率,本文对中文反讽识别及其情感判别开展研究。通过分析中文特有的语言现象和微博的特点,归纳了中文微博反讽的语言特征,提出了融合语言特征的卷积神经网络模型和融合上文信息的注意力机制的LSTM模型来进行反讽识别及其情感判别。主要研究工作如下:(1)中文微博反讽的语言特征选择。由于反讽与语言习惯有关,不同语言的语法结构和语义表达存在差异,和英文反讽相比,中文反讽的语法结构和语义表达更加复杂,使得中文反讽识别及其情感判别在词语层面上比英文反讽识别及其情感判别更具有难度,英文的反讽特征并不能够直接用于中文的反讽识别及其情感判别中。本文在借鉴中英文反讽识别相关工作的基础上,考虑中文微博自身的特点,归纳了中文微博反讽的几种语言特征,并通过卡方统计量选取了多种语言特征对应的特征词。(2)融合语言特征的卷积神经网络模型。传统的机器学习方法依赖于人工选取特征,这些特征的选取需要专业领域知识和大量的实践,而且单凭人工特征难以获得句子的深层语义信息。本文针对传统特征选择方法无法挖掘句子深层语义的不足,采用Skip-gram模型训练微博词向量,提出了一种融合语言特征的卷积神经网络模型。该模型在利用中文反讽语言特征的同时,融合了句子的深层语义信息。实验结果显示,该模型在中文反讽识别方面比传统的机器学习方法有明显的提升,F值达到了0.8187,同样该模型在反讽情感判别方面较单独的CNN模型有一定的改善。(3)融合上文信息注意力机制的LSTM模型。对于微博中的反讽句,它的上文信息往往叙述了反讽的原因,表达了微博的整体情感。因此,上文信息对于反讽识别及其情感判别起着关键性的作用。由于传统的CNN模型仅从连续的N-gram向量矩阵中获取局部的特征,无法解决句子中非连续性依赖和交互性问题,相互独立的节点无法有效表示序列化的文本。因此,为了更好的对句子进行语义表示,本文在融合语言特征的卷积神经网络模型的基础上,加入了LSTM和注意力机制。实验结果显示,该方法提高了中文反讽识别的精确率,并对反讽的情感判别也有一定的提升。