基于表示学习的事实型隐式情感分析研究

来源 :山西大学 | 被引量 : 12次 | 上传用户:zgkl004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络中由用户自主产生的文本大数据,具有量大、面广、速度快等特点,给当代社会和经济发展带来前所未有的影响。文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。由于语言的多样性和复杂性,从表达层面依照是否含有显式情感词可分为显式情感分析和隐式情感分析。显式文本情感分析作为该领域的基础性研究,已有大量的相关研究成果。然而,人们对客观事物的体验及行为反应的情感是丰富而抽象的,往往通过形象的修辞形式加以描述或者采用客观陈述方式表达自己的隐式情感。这类情感缺少显式情感词作为情感指引,且表达更为含蓄、隐晦,已成为自然语言处理中的核心难题之一。在隐式情感分析中,事实型隐式情感占有非常重要的地位。因此,本文将围绕事实型隐式情感分析,以表示学习方法为技术手段,从事实型隐式情感的特点分析、特征表示、特征融合学习等方面开展深入的研究与探索。主要研究内容及创新点如下:(1)隐式情感类型划分及事实型隐式情感的特点分析。隐式情感按照其表达方式的不同,可划分为事实型、反问型、反讽型和比喻/隐喻型四类。本文通过对事实型隐式情感的大量分析,发现其具有情感背景一致性、情感目标相关性、语义背景相关性以及表达结构相似性四个基本特点。以此为基础,我们给出了事实型隐式情感的形式化定义,并将其识别划分为四个子任务,即上下文显式情感识别与分类,隐式情感目标抽取,上下文显式情感语义背景表示和事实型隐式情感表示四部分。(2)多层级、多类型的情感分析语料库构建。由于文本情感分析,尤其是隐式情感分析领域缺乏高质量标注数据,本文按照情感类型从显式到隐式,按照语言层级由句子级到要素级,构建了一部多层次、多类型、大规模的情感分析语料库。并对语料库进行了详细的分析。该语料库成功应用在了COAE2014和COAE2015中文倾向性分析评测任务中,可为中文文本情感分析相关研究提供了数据支持,也为本文后续的相关研究提供了数据资源。(3)基于显式情感的上下文倾向性分类。基于显式情感的上下文倾向性分类的结果,可为事实型隐式情感的判别提供重要的参考。本文提出带有词语隐含关联关系的情感多元组表示,从文本中自动抽取<目标—转折—程度—评价>四元搭配,构建要素级情感袋模型,并构建以情感倾向性为权值的文本空间向量浅层语义表示,用于对上下文显式情感句进行识别和倾向性分类。在文本多级情感分类任务上的实验表明,要素级情感袋模型可以取得良好的显式情感分类效果。(4)基于实体表示的隐式情感目标抽取方法。隐式情感表示中涉及情感目标(情感对象、情感属性)抽取任务,本文将情感对象—属性实体间所蕴含的多种统计关联特征、句法结构关系特征与实体间的隐含语义关联特征融合于实体及实体间关系的表示学习过程中,构建了一个可自由组合各种关系特征的融合表示学习框架(FREERL),并将其应用于隐式情感表达的情感目标识别与抽取中。实验表明,多种关系的融合嵌入表示可以极大提升情感目标抽取的性能,并在测试集中大量出现新实体的(zero-shot)场景下,也可有效解决传统方法因训练不足导致的性能下降问题。(5)基于多级语义融合表示的事实型隐式情感分析方法。事实型隐式情感通常以句子作为呈现方式,本文提出了多级语义融合的隐式情感表示学习统一框架,将三种层级的特征,即要素级的情感目标、句子级的隐式情感表达和篇章级的上下文显式情感语义背景表示进行融合,以实现情感背景一致性、情感目标相关性、语义背景相关性以及表达结构相似性融合表示的建模。针对句子级的隐式情感表达和篇章级的上下文显式情感语义背景的表示,提出了增强字向量模型(ECM)和基于句法语义关系嵌入的多层卷积神经网络模型(SDT-CNN)。其中,ECM模型以字作为句子的基本表示单元,并且融入了对应的词和词性信息;SDT-CNN模型进一步考虑了事实型隐式情感表达结构相似性的特点,嵌入句法关系信息且保留了文本的部分词序信息。实验表明,本文方法在事实型隐式情感句识别和倾向性分类任务上具有良好的效果。
其他文献
阐述了AutoCAD二次开发中常用多行文本的处理方法,通过比较,推荐使用多行文本替换技术;介绍了AutoCAD二次开发中两种多行文本替换思路及其适用范围;使用RegExp组件提取块文件
<正> 海尔集团的前身青岛冰箱总厂是一个濒临倒闭的集体企业。1984年员工820人,年生产电冰箱740台,销售收入348万元,固定资产500万元,年亏损147万元,出口为零。当时企业面临
本文运用弗里德曼的持久收入假定、布朗的相对广义收入假定以及消费函数中的线性支出模型,对上海城乡居民收入与消费间的总量及结构关系进行了验证,并对其生成原因进行了分析与
使用AutoCAD绘图在各行各业已经十分普遍,二次开发可以增强其功能并使其更加符合专业需求。首先介绍各种AutoCAD二次开发方式的优缺点,其后给出了使用VB.NET开发AutoCAD的一
ARP攻击不仅攻击PC机,还攻击路由器、交换机等各种网络设备,传播和危害范围很广。ARP攻击既可能造成网络内出现随机断线,也可能造成整个网络瘫痪,还可能造成通信被窃听、信息
核聚变实验反应堆是核电的发展趋势,ITER (International Thermonuclear Experimental Reactor)是为了验证热核聚变反应堆在技术和工程上的可行性而正在研究的一项国际间大型
目的通过对河池市居民主要消费食品中食源性致病菌及大肠菌群的检测,初步了解河池市市售食品致病菌的污染情况,提高食源性疾病预警和控制能力。方法按照2010年度《广西食品安
国家秘密、企业秘密、部门秘密,是国家、企业和相关部门的重要战略资源。严守机密,是事关国家安危和企事业单位发展的大事。保密和窃密历来就是一场没有硝烟的战争。办公室是
热泵作为一种节能技术已经广泛应用到人们的日常生活,热泵热水器的应用也得到了快速的发展。但传统空气源热泵热水器只能吸收某一位置的热量,在北方严寒季节存在制热效率低,
<正>有人把人生比作书,我个人十分赞同。我们所经历的事便是书的章节,那些遇见的人就是故事的主人公,而沉淀的感动和感悟则是每个故事的结尾,一样耐人寻味,一样发人深思。而
期刊