论文部分内容阅读
随着互联网的迅猛发展,网络中由用户自主产生的文本大数据,具有量大、面广、速度快等特点,给当代社会和经济发展带来前所未有的影响。文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。由于语言的多样性和复杂性,从表达层面依照是否含有显式情感词可分为显式情感分析和隐式情感分析。显式文本情感分析作为该领域的基础性研究,已有大量的相关研究成果。然而,人们对客观事物的体验及行为反应的情感是丰富而抽象的,往往通过形象的修辞形式加以描述或者采用客观陈述方式表达自己的隐式情感。这类情感缺少显式情感词作为情感指引,且表达更为含蓄、隐晦,已成为自然语言处理中的核心难题之一。在隐式情感分析中,事实型隐式情感占有非常重要的地位。因此,本文将围绕事实型隐式情感分析,以表示学习方法为技术手段,从事实型隐式情感的特点分析、特征表示、特征融合学习等方面开展深入的研究与探索。主要研究内容及创新点如下:(1)隐式情感类型划分及事实型隐式情感的特点分析。隐式情感按照其表达方式的不同,可划分为事实型、反问型、反讽型和比喻/隐喻型四类。本文通过对事实型隐式情感的大量分析,发现其具有情感背景一致性、情感目标相关性、语义背景相关性以及表达结构相似性四个基本特点。以此为基础,我们给出了事实型隐式情感的形式化定义,并将其识别划分为四个子任务,即上下文显式情感识别与分类,隐式情感目标抽取,上下文显式情感语义背景表示和事实型隐式情感表示四部分。(2)多层级、多类型的情感分析语料库构建。由于文本情感分析,尤其是隐式情感分析领域缺乏高质量标注数据,本文按照情感类型从显式到隐式,按照语言层级由句子级到要素级,构建了一部多层次、多类型、大规模的情感分析语料库。并对语料库进行了详细的分析。该语料库成功应用在了COAE2014和COAE2015中文倾向性分析评测任务中,可为中文文本情感分析相关研究提供了数据支持,也为本文后续的相关研究提供了数据资源。(3)基于显式情感的上下文倾向性分类。基于显式情感的上下文倾向性分类的结果,可为事实型隐式情感的判别提供重要的参考。本文提出带有词语隐含关联关系的情感多元组表示,从文本中自动抽取<目标—转折—程度—评价>四元搭配,构建要素级情感袋模型,并构建以情感倾向性为权值的文本空间向量浅层语义表示,用于对上下文显式情感句进行识别和倾向性分类。在文本多级情感分类任务上的实验表明,要素级情感袋模型可以取得良好的显式情感分类效果。(4)基于实体表示的隐式情感目标抽取方法。隐式情感表示中涉及情感目标(情感对象、情感属性)抽取任务,本文将情感对象—属性实体间所蕴含的多种统计关联特征、句法结构关系特征与实体间的隐含语义关联特征融合于实体及实体间关系的表示学习过程中,构建了一个可自由组合各种关系特征的融合表示学习框架(FREERL),并将其应用于隐式情感表达的情感目标识别与抽取中。实验表明,多种关系的融合嵌入表示可以极大提升情感目标抽取的性能,并在测试集中大量出现新实体的(zero-shot)场景下,也可有效解决传统方法因训练不足导致的性能下降问题。(5)基于多级语义融合表示的事实型隐式情感分析方法。事实型隐式情感通常以句子作为呈现方式,本文提出了多级语义融合的隐式情感表示学习统一框架,将三种层级的特征,即要素级的情感目标、句子级的隐式情感表达和篇章级的上下文显式情感语义背景表示进行融合,以实现情感背景一致性、情感目标相关性、语义背景相关性以及表达结构相似性融合表示的建模。针对句子级的隐式情感表达和篇章级的上下文显式情感语义背景的表示,提出了增强字向量模型(ECM)和基于句法语义关系嵌入的多层卷积神经网络模型(SDT-CNN)。其中,ECM模型以字作为句子的基本表示单元,并且融入了对应的词和词性信息;SDT-CNN模型进一步考虑了事实型隐式情感表达结构相似性的特点,嵌入句法关系信息且保留了文本的部分词序信息。实验表明,本文方法在事实型隐式情感句识别和倾向性分类任务上具有良好的效果。