论文部分内容阅读
文本情感分类任务旨在判别给定文本的情感类别(消极、积极等),是情感分析(Sentiment Analysis,SA)领域下基础且重要的工作。近来,神经网络(Neural Networks,NN)凭借其巧妙的网络结构和强大的表征能力在文本情感分类任务上取得优异成绩。然而,神经网络在利用海量训练数据建模文本特征时,其复杂抽象的黑盒化学习过程忽视了对该分类任务起着关键作用且可直接利用的常识知识:如句中能直接决定文本情感的情感词本身具有的情感极性(消极或积极)。所以,如何利用已知常识知识辅助神经网络提升模型的分类性能,同时提高模型的可解释性值得探索。于是,本文着眼于情感常识知识和神经网络模型在文本情感分类任务中的研究,展开以下三个方面的工作:(1)首先,本文借助注意力机制(Attention Mechanism)向神经网络模型注入情感常识,提出一种由情感中心诱导生成的情感常识权重矩阵来获取句子向量表征。现存的注意力机制在文本情感分类任务中,需大量有标签的数据有监督地对模型参数进行训练导致训练成本较高,且隐式地学习句中各单词的权重导致权重准确率较低。而本文的情感常识权重矩阵直接利用有效常识信息进行针对性学习,以提高注意力机制对关键情感词判别的准确性;同时,在此基础上本文进一步提出一种情感常识校验机制,利用句中已知常识信息校验该句子对应权重矩阵是否准确地给关键词赋予较高权重,给其余词赋予较低权重,以此提升分类模型性能。本部分相关工作已发表于2018 IJCNN(CCF-C类)会议上。(2)然后,本文通过多任务学习(Multitask Learning)的方式向神经网络模型注入情感常识,提出一种与文本情感分类任务同时进行的情感序列标注任务。由于神经网络在融合上下文语义信息的同时,会弱化甚至丢失单词原本具有的情感常识信息,而单词的情感在文本情感分类任务中往往起着决定性作用。所以,本文提出一种细粒度的辅助情感序列标注任务:在神经网络建模句子的同时,利用常识知识对神经网络学得的各单词隐含层表征进行情感标注,以此增强该表征中对应单词的原始情感信息。同时,为进一步增强辅助任务模型的性能,本文还尝试了将常识信息拼接注入神经网络的两种网络结构:1)词表征级的拼接;2)隐含层表征级的拼接,然后再将这两种拼接方式分别与辅助标注任务结合,探索将情感常识注入神经网络的最优方式。该相关工作已发表于2019 CIKM(CCFB类)会议上。(3)最后,本文还利用上述两种注入了情感常识的神经网络模型完成情感常识知识库的扩充:1)通过情感常识权重矩阵识别出新重点词;2)通过情感序列标注任务判别出新情感词,使得本文工作形成“已知情感常识辅助神经网络模型”到“神经网络模型挖掘未知情感常识”的闭环。本文在真实文本情感分类数据集上进行了大量实验:论证了将情感常识注入神经网络提升模型性能的必要性和充分性;验证了本文提出的注入情感常识的神经网络模型的有效性,在各数据集上取得明显的性能提升;展示了本文关于情感常识知识库扩充方法的可行性。