论文部分内容阅读
近年来,针对比喻性修辞的自然语言处理相关研究越来越受到广泛关注,特别是对隐喻、反讽、讽刺等修辞的处理,对隐式表达情感的文本进行情感倾向的分析,都有非常重要的研究价值。本文基于深度学习模型,研究推文的反讽识别、隐喻识别及隐式情感分析这三个方面问题,这些研究方法不仅可以用于情感分析任务,还可以用于其他自然语言处理任务,因此该研究具有重要的学术价值。在推文的反讽识别研究中,针对反讽的语句通常含有情感的翻转的问题。本文提出使用包含褒贬中立三类情感的语料预训练CNN用以提取情感特征,并采用联合LSTM和CNN深度学习模型进行分类的方法。实验结果表明,采用该方法与传统的CNN和LSTM的方法比较反讽识别F1值更高,说明这种联合深度学习方法能有效的获得句子中的情感信息和具体的语义信息。在隐喻识别的问题中,分别对中文动词隐喻识别和英文单词级隐喻识别进行了研究。针对中文隐喻识别中对动词及其关联名词实体的分析,本文提出了采用基于注意力机制(Self-Attention)的双向长短时记忆网络(BiLSTM)模型来提取结构化的句子嵌入方法,同时采用基于Transformer的encoder层来提取的句子特征。其中,BiLSTM通过隐藏层有效存储上下文信息,并且通过二维矩阵来表示句子嵌入来实现自我关注的注意力机制,有效地融入句子级的语义信息。实验结果表明在隐喻识别任务上本文提出的方法有效地提高了隐喻识别效果,同时该方法在2018年中国计算语言学学术会议中文隐喻识别与情感分析评测中获得第三名。针对英文隐喻识别中训练词向量的过程中上下文信息利用不充分的问题,本文提出了使用基于微调的多层双向Transformer编码器(BERT)进行预训练双向单词表示的方法。该模型能联合调整单词前后的语境信息生成单词表示,提高了理解长序列上下文关系的能力。实验结果表明,该方法对英文动词和其他词性(POS)进行隐喻检测效果显著,F1值比baseline提高4%。在隐式的情感分析研究中,句子表达的情感信息不显著,需要挖掘更多的上下文语义信息才能提升效果。BERT通过构建深层网络表示,获取深层的句子语义信息,本文提出采用BERT来抽取句子特征。实验结果表明对于句子中隐藏的情感极性,模型预测效果明显。针对训练数据缺乏的问题,本文使用简单数据增强技术(EDA),通过同义词替换、随机插入、随机交换和随机删除扩充数据集。实验结果表明,BERT和EDA在隐式情感分析任务中取得了最好的效果,F1值达到0.65。