基于上下文无关和上下文相关的情感识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户：calidaw

【摘要】

：

【作者】

：

傅雅慧

【机构】

：

天津大学

【出处】

：

天津大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

情感是人类固有的,因此,情感识别是机器在自然的人机交互中理解和产生情感反应的关键部分。对话中的情感识别近年来受到了广泛的关注,并且由于其在社会媒体,医疗保健,教育和人工智能交互等多个领域的广泛应用,已成为自然语言处理研究的新领域。因此,有效的情感识别算法具有重要意义,但是这仍然是一个具有挑战性的任务。基于上下文无关和上下文相关的情感识别是情感计算中的两个重要任务。对于第一个任务,近年的研究主要集中于从单句的文本,音频和对应的面部表情等提取情感特征,并不考虑上下文的影响。但考虑到多轮对话中语义和情感变化的复杂性,仅对孤立的单句建模不足以准确的预测文本的情感,因此基于上下文的情感识别（任务二）也是目前研究的热点之一。与第一个任务中的上下文无关的文本情感识别不同,为第二个任务建模有效的上下文关系尤其具有挑战性。对第一个任务,预训练的词嵌入模型在上下文无关的情感分析系统中起着重要作用,如可以提取单词多维语义特征的Word2vec,Glove（Global Vectors）等。除了词义之外,也有很多研究基于端到端的方法,通过在经过良好训练的神经网络模型如ELMO（Embeddings from Language Models）和BERT（Bidirectional Encoder Representations from Transformers）上进行微调来获得更好的性能。但是,这些特征表示是基于句法和语义信息的,它们不包含特定的情感信息。为了在训练过程中提取有效的情感特征,许多工作引入了词典信息,因为每个情感值往往代表对应单词的情感极性和情感强度,比如有的研究将文本分词后所有的单词和情感词典中的每个词进行语义相似度计算,并取最大值作为该文本在此单词维度下的情感极性。情感词典的使用可以一定程度上增强训练过程中的情感特征,但是其作用往往受限于情感词典的大小,此外在表达一个句子的情感极性时,将句子中的每个单词的情感极性相加或是取最大值的做法是不太恰当的,比如当两个正反极性的单词组合在一起,其情感极性不一定是两者相加或取最大值。注意力机制模型,即给情感特征更大的权重,这种方法在文本情感识别中也有较多应用。但是这些方法主要是基于语义和句法信息对上下文进行建模从而给不同的特征分配权重,并没有包含特定的情感信息。第一个任务存在的问题是先前的研究利用语义信息和情感词典进行情感建模来提取的情感特征。但是忽略了可能由情感标签本身传达的信息。本文认为,情感标签的语义特征可以引导网络从输入文本中提取与情感相关的特征。为了解决这个问题,本文提出了一种基于情感相似度的注意力（SSOA）机制,该机制在编码文本特征时使用情感标签的语义信息来指导模型的注意力,从而从句子中提取与情感有关的特征。本文的方法主要包括三个部分:1)句向量编码;2)以情感相似度为导向的注意力机制计算;3)多任务学习。1)句向量编码。通过基于Transformer结构的Universal Sentence Encoder预训练模型将训练集和四类情感转换为句向量矩阵。本文并不是采取随机初始化的方法进行标签特征的学习,而是通过Transformer,因为从预训练模型中可以获得更丰富的语义特征。此外本文使用句特征向量而不是传统的词特征向量,因为当基于词级别计算一个句子的情感时可能会导致一句话中前后情感不一致。例如,在一个句子样本中,“你不愚蠢。”单词“不”和“愚蠢”都代表否定情绪,如果只是将它们串联起来代表这句话的情绪,那就是负面情绪的,但实际上这句话表达的是积极情绪。2)以情感相似度为导向的注意力机制计算。通过所提出的以情感相似度为导向的注意力机制,计算文本和情感标签之间的情感相似度,并且将情感词典中的效价值（V）作为情感极性,来表示不同单词的情感从不开心到愉悦的情感强度。训练模型后,可以获得SSOA,其值表示每种情感的权重。接着使用convolutional neural network（CNN）提取复杂的语言特征,因为它已被广泛用于文本情感识别并显示了不错的效果。3)多任务学习。情感一般的有两种常见的表示方式,一种是离散的情感如开心,伤心,沮丧等,另一种是三维区间的情绪表示,效价（V,表示刺激的愉悦性）,唤醒度（A,表示情感强度）和优势度（D,刺激控制的程度）。V,A,D可以更加细腻度的描述情感。Marsella等人提出每一种离散的情感都可以由V,A,D三个维度线性表示。并且在心理学和生理学中,情绪的表达也与V,A,D高度相关。多任务学习已被广泛使用,在一项任务中学习的知识通常可以提高另一项相关任务的性能并丰富不同类型任务的鲁棒性。综上原因,在这项工作中,通过构建情感分类和VAD情绪回归的多任务学习来提取更加鲁棒的特征。此次实验采用IEMOCAP数据库。这是个多模态数据库,内容为10名不同的说话人在自发和剧本两种不同的语境下的对话视频,包括转录文本,音频和面部动作等特征。此次实验中本文只使用文本模态。为了与前沿的实验进行对比,本文使用离散的5531句,共有四类情感,分别为开心（29.6%）,中性（30.9%）,生气（19.9%）和伤心（19.6%）;有三类情绪维度标签,分别为效价、唤醒度、优势度,每类标签的情绪维度为1到5。此外,本文使用ANEW情感词典,该词典在效价,唤醒度和优势度三个维度的取值范围分别为1至9,对应每个维度情绪从弱到强的程度。结果表明,在IEMOCAP数据库上,所提出的方法比以前的基于文本的情感识别性能提高了6.57%,从63.39%增至69.96%,并且具有更好的鲁棒性。对于VAD回归任务,本文使用均方误差（MSE）和皮尔逊相关系数（r）来评估性能,其中MSE值越低且相关性越高,则性能越好。实验结果表明所提出的模型在VAD回归任务上也优于前人的工作取得了更好的效果。与第一个任务中的上下文无关的情感识别不同,在第二个上下文相关的任务中构建有效的上下文关系对更准确的检测说话人的情感是至关重要的。基于recurrent neural network（RNN）的方法在上下文建模中应用广泛,它是应用双向长短期记忆模型按照序列顺序编码对话的上下文特征。但是,这种方法面临远程传播信息丢失的问题,因此对长距离上下文信编码效果不佳。为了缓解此问题,一些变体将双向长短期记忆模型和注意力机制融合在一起,可以动态地关注最相关的上下文特征。但是,注意力机制并未考虑目标话语和上下文话语的相对位置,这对于建模过去的对话如何影响未来对话非常重要,反之亦然。因此许多工作如dialogue graph convolutional network（DialogueGCN）和graph-based convolutional neural network towards conversations（ConGCN）使用图卷积神经网络（GCN）来建模上下文相关性,并且都取得了很好的效果,证明了GCN在上下文结构上的有效性。由于目标话语的情绪通常会受到附近话语的强烈影响,因此通过对GCN模型中的边的构建可以有效表示说话者之间的相互影响关系和自我影响关系。但是,DialogueGCN和ConGCN都仅考虑对话之间的语义信息,对于不包含明显的情感术语的隐含情感文本,由于文本中的单词相对客观和中立,如果仅考虑对话的语义信息,很难正确地识别情感。在第二个任务中,对话者的内部依赖和相互依赖对于建模动态交互并理解每轮对话的情感变化非常重要。图神经网络由于其丰富的关系结构已在多种任务上显示出有效的性能,并且可以在图编码中保留图的全局结构信息。GCN基于邻域的结构是一种合适的体系结构,可提取对话的局部和全局的上下文信息。但是上下文语义所传达的信息不足以进行情感检测,尤其是对于小型数据库和隐式情感文本而言。知识库的应用已经在诸如开放域对话系统和抑郁症检测等多个研究领域中引起了广泛的关注。知识库提供了与常识相关的背景概念等丰富的资源,可通过提供上下文特定的概念来增强对话的语义特征和情感极性。所以,基于上下文的语义建模和引入外部知识库来增强语义的理解对于上下文的情感识别任务是至关重要的。为了解决这个问题,本文提出了一种新的基于语义和知识引导的多模态图卷积神经网络（ConSK-GCN）方法,以有效地构造每段对话中的语义相关和知识相关的上下文特征。本文的方法主要包括三个部分:1)多模态特征的提取和初始化;2)基于语义图的知识提取;3)上下文语义和知识引导的图卷积神经网络（ConSK-GCN）的构建和训练。1)多模态特征的提取和初始化。在对话中,人与人交流时内容和韵律都会传达情感,因此本文同时使用声音和文字表征两种模态的情感识别。为了初始化每种模态,本文训练了不同的网络在情感标签的监督下分别提取单句级别的语言和声学特征。由于IEMOCAP和MELD数据库的差异性,针对这两个数据库,本文采取了不同的方法。对于IEMOCAP数据库,为了与最先进的方法进行比较,本文采用了传统且使用最广泛的卷积神经网络来提取文本特征。首先,本文使用公开可用的预训练模型word2vec来初始化单词向量。然后,使用一个卷积层,一个池化层和两个全连接层来获得句级别的深层特征表示。其中100个尺寸分别为3,4,5的滤波器做卷积操作。池化层的窗口大小设置为2,激活函数是Relu。最后输入两个分别具有500和100个隐藏节点的全连接层。对于声学特征的提取,研究人员发现,大于250ms的段语音信号包含足够的情绪信息,因此本文设置每段的时长为265ms,滑动窗口设置为25ms,则频谱图尺寸为32 × 129。在MELD数据库中,每段对话的平均句数和每句话的平均单词数分别为9.6和8.0,其中在IEMOCAP数据库中分别为49.2和15.8。相比于IEMOCAP,MELD中的话语较短,上下文相关性不强。因此,卷积神经网络不足以提取MELD中话语的有效特征。考虑到BERTBASE在许多NLP任务（例如阅读理解,抽象性摘要,文本蕴含和学习与任务无关的句子表示）中显示了最先进的性能,因此本文应用BERTBASE,其模型架构是多层双向Transformer编码器,用于初始化MELD的文本表示。首先,本文对预训练的BERTBASE模型进行微调,其中包含12个Transformer块,768个隐藏大小,12个自注意头以及110M总参数。然后,本文将倒数第二个全连接层的特征作为上下文无关的句级别的特征向量。声学特征的提取方面,由于MELD的平均句长为3.6s,因此本文设置段长为2s,滑动窗长为1s,每段的频谱图尺寸为1874 × 129。最后本文使用两层BLSTM对文本特征和语音特征进行融合。模态对齐是多模态情感识别任务中具有挑战性但重要的过程。但是,跨模态的异质性增加了它的难度。在此次论文的体系结构中,本文只是将声学和语言特征拼接在一起,没有模态对齐,这也将在以后的工作中做进一步研究。2)基于语义图的知识提取。在本文中,主要使用了常识知识库ConceptNet和情感词典NRCVAD。ConceptNet是一种大规模的多语言语义图,通过带有标记的加权边将自然语言的单词和短语连接起来,旨在帮助理解语句中所涉及的常识,从而改善自然语言的应用,协助自然语言应用程序更好地理解人们使用的词语背后的含义。ConceptNet中,节点代表概念,边代表关系,每组＜concept1,relation,concept2＞都有对应的置信度得分。例如:“奖学金具有同义词助学金,置信度分数为0.741”。对于英语,ConceptNet包括590万组连接,310万个概念和38种关系。然后,本文根据每个语义图中的语义依赖在ConceptNet中选择相应的概念。NRCVAD词典中包含超过20,000个的英语单词,对应其效价（V）,唤醒度（A）和优势度（D）分数。每个维度的VAD实值得分分别在0-1的范围内,对应于从低到高的程度。其中本文计算V和A的值作为每一个知识概念的情感极性。3)上下文语义和知识引导的图卷积神经网络（ConSK-GCN）的构建和训练。本文分别构建了三个图网络模型,分别是基于上下文语义的图卷积神经网络（S-GCN）,基于知识的卷积神经网络（K-GCN）,和基于上下文语义和知识的图卷积神经网络（SK-GCN）。在上下文语义引导的图卷积神经网络（ConS-GCN）中,本文通过构建图模型描述了对话者之间的上下文交互信息和说话人自己的语义连贯性。在这个基于上下文建模的语义图中,每句话都可以看作是单个节点,一对节点/对话之间的关系边则表示这些对话的说话者之间的依赖关系。语义图中,每个节点代表每句话的多模态特征。边表示每段对话中的上文语义相似度。本文首先计算两句话的余弦相似度,然后利用arccos将余弦相似度转换为角距离,从而来计算两句话之间的语义相似度。在知识图网络（ConK-GCN）中,本文引入了一个外部知识库,该知识库可以帮助理解对话内容和生成适当的回答,并通过构建知识指导的图卷积神经网络来丰富上下文中每个概念的语义含义。此外,本文将情感词典引入知识图的构建中,以丰富每个知识的情感极性。知识图中,每个节点/概念特征可以通过有效的语义空间ConceptNet Numberbatch获取,该语义特征是从分布式语义如word2vec和ConceptNet中学习而来。不包含在ConceptNet中的概念通过“fastText”方法进行初始化,该方法是用于有效学习单词表示的库。对于不在NRCVAD中的概念,本文将V和A的值设置为中性值0.5。知识图中的边表示不同概念之间的知识关联性。最后,本文利用语义权重矩阵和情感增强的知识权重矩阵来构建ConSK-GCN的新邻接矩阵,以在上下文情感识别任务中获得更好的性能。语义和知识引导的图中,与语义图相同,每个节点代表每句话的多模态特征。边矩阵是对知识图和语义图的边矩阵加权求和,并同过模型参数wk,用于平衡知识和语义对每段对话中上下文相关性的影响。然后本文将多模态特征和边矩阵输入到R-GCN中得到既具有上下文语义又具有知识的局部上下文信息。为了在ConSK-GCN的训练中找到知识权重和语义权重之间的最佳平衡值wk,本文分别在IEMOCAP和MELD中测试wk从0,0.1,…,1不同取值的效果。结果显示知识感知和语义感知的语境构建对于会话中的情感识别非常重要,但是不同的权重（0.1到0.9）对情绪检测的影响并不明显。本文在两个多模态对话数据库上评估提出的ConSK-GCN模型,分别是IEMOCAP和MELD。本文只使用了语音和文本模态用于情感识别。然而,人类交互中,除了语调和说话内容,面部表情也可表示情感的变化,因此视觉特征也是情感检测中的重要因素之一,对于融合这三种模态的多模态情感识别将作为未来的工作之一。MELD数据库共有1433段对话,共约13000句,其情感分布为46.95%中立,16.84%欢乐,11.72%愤怒,11.94%惊喜,7.31%悲伤,2.63%厌恶,和2.61%害怕。在多模态语料库IEMOCAP和MELD上的实验表明,本文的方法可以有效地构建对话中的上下文相关性。特别是对于包含隐性情感的文本,可以有效的提高情感识别的准确率。具体而言,在IEMOCAP上进行的实验表明,本文的方法在单模态和多模态情感识别方面均优于目前最新的方法。单模态下,在平均精度和F1两个衡量指标方面都至少提高了 1.3%,而在多模态情感识别中提高了4%以上。在MELD数据库上进行的实验表明,所提出的ConSK-GCN在单模态和多模态情感识别方面,在F1的指标上,皆具有优于最新方法至少5.7%的性能。此论文主要针对两种不同的任务中存在的问题提出了两种解决方案。在上下文无关的情感识别任务中,为了解决语义和情感词典不足以提取有效的情感特征进行情感建模的问题,本文提出了一种面向情感相似度的注意力机制,该机制可用于指导网络从输入文本中提取与情感有关的信息,以提高上下文无关的情感分类任务的准确度和减小了情感回归任务的误差。在上下文相关的任务中,为了解决上下文语义所传达的信息不足以对小型数据库和隐式情感文本进行情感检测的问题,本文提出了一种新的基于语义和知识的上下文图卷积网络（ConSK-GCN）用于上下文相关的情感识别,并且有效的运用了文本和音频两种模态。在这种方法中,本文通过基于对话图的图卷积网络来构造说话者之间和说话者自己的上下文交互。然后将语义图和常识知识图结合起来,对语义相关和知识相关的上下文动态进行建模。本文所提出的以情感相似度为导向的注意力模型在IEMOCAP数据库上,相比以前的工作情感识别准确率从63.39%增至69.96%,提高了6.57%;在VAD回归任务上也优于前人的工作取得了更低的均方误差和更高的皮尔逊相关性。验证了所提出的模型在情感识别任务中能够提取更有效和更具鲁棒性的情感特征。本文所提出的语义和知识引导的图卷积神经网络（ConSK-GCN）,在IEMOCAP和MELD数据库上,在单模态和多模态情感识别任务中皆优于前人的工作取得了更好的结果。其中在IEMOCAP上进行的实验表明,ConSK-GCN优于目前最新的方法,单模态下,平均精度和F1值都至少提高了 1.3%,而在多模态情感识别中也提高了4%以上。在MELD数据库上,ConSK-GCN在单模态和多模态情感识别方面,优于最新方法F1值分别提高5.7%和7.3%。这验证了上下文语义信息和外部知识的引入对正确检测对话中的情感的必要性以及ConSK-GCN的有效性。总结来说,与现有研究相比,本文的贡献是:1)本文提出了一种面向情感相似度的注意力机制,通过结合标签语义来对情感信息表示进行编码。2)本文结合训练两项相关任务（即离散的情感分类和维度的VAD回归）之间的相互学习来改善彼此的表现。3)本文提出了一种新的面向上下文语义和知识的图卷积网络（ConSK-GCN）方法,该方法同时利用了语义信息,常识知识和多模态（文本和语音）特征。知识库的引入丰富了每段对话的语义,而情感词典则增强了对话中每个概念的情感极性。此外,这两项技术可以作为人机交互系统的重要组成部分,应用到增强情感互动并改善用户体验等相关任务中。

其他文献

LNG-FSRU再气化作业风险管理研究

近年来,我国一直大力推动实施清洁低碳发展战略和严格的生态环保政策。天然气因具有环保、安全、热值高的优点,是一种十分理想的低碳清洁能源,是能源供应清洁化的最现实选择。在我国北方“煤改气”政策实施后,国内天然气需求上涨趋势迅猛,尤其冬季采暖期天然气的调峰能力严重不足。浮式储存再气化装置（Floating Storage and Regasification Unit,简称FSRU）具有建造周期短、快速

学位

A电力集团中层管理人员培训体系设计与评估研究

新时期,党和国家对国企提出创建具有全球竞争力世界一流企业的目标,人才是企业实现高质量发展目标的关键。当下,做好国有企业人才的培训教育,尤其是企业中层管理人员的培训教育,对于国有企业的转型升级,实现高质量健康发展尤为重要。因此如何根据现有情况设计开发出一套符合企业高质量发展的中层管理人员教育培训体系,成为了众多国有企业面临的重要课题。本文通过以国有A电力集团为具体研究对象,同时限定中层管理人员这个培

学位

企业业财融合中存在的问题及应对举措

当今经济全球化进程加快，我国市场经济高速发展，企业竞争越来越激烈，市场对企业的管理要求也越来越高，企业的任何一个决策都至关重要，为了提高企业决策准确性，相关财务数据的及时与准确就至关重要，大数据互联网的发展，为财务数据的全面、及时和准确性提供了技术支持，财务的重点由传统记账财务会计向管理会计转变成为必然趋势，而业财融合作为管理会计的核心，有助于提升财务整理能力，提高管理决策的精准性，提高企业管理水

期刊

J公司成型车间生产过程质量改进研究

J公司的主营业务之一是生产制造消费类电子产品,其下属天津厂是A客户一款手机无线充电器外壳的代工厂,该产品由两种材质通过注塑工艺而成,技术难点在于产品设计和液态硅橡胶的物料特性,在项目开发阶段,生产良率低,每月损失达25万元,影响了公司效益。本文以提升成型良率为研究目的,运用定义、量测、分析、改进、控制的逻辑对生产过程进行质量改进研究。在项目实施的过程中,首先,聚焦项目所研究的成型制程,运用帕累托图

学位

AL门窗系统公司营销策略研究

随着我国的不断发展,门窗行业的国家标准也在不断升级,人们对于门窗的审美和消费能力也在发生改变,高质量门窗的市场需求开始逐步显现。因此,这几年“系统门窗”逐渐火爆起来,以佛山派为代表的国产系统门窗企业迅速崛起,抢占市场高地,高端门窗市场总量逐步扩大。同样,来自欧洲的AL门窗系统公司面临的竞争压力越来越大,怎样抓住市场机遇,选择适合的营销策略,变成了公司发展的首要任务。本文以此为切入点,根据门窗发展趋

学位

水泥企业无组织排放控制和治理

水泥企业在实施内部管理工作时,应当加强对环保管理工作的重视,结合企业生产特点,重视控制无组织排放的问题,强化治理力度。本文以永登祁连山水泥有限公司为研究对象,以其开展的治理与控制无组织排放工作为研究内容,确定其使用的治理方法,总结应对无组织排放的经验,满足环保管理要求,支持水泥企业在环保事业中做出更多的贡献。

会议

超超临界参数锅炉贴壁风改造方案设计及工程应用

针对1台存在严重高温腐蚀问题的660 MW超超临界参数锅炉进行了贴壁风方案设计及工程应用研究。首先，对改造前水冷壁区域的贴壁气氛进行了测试，发现主燃区侧墙处于很强的还原性气氛，是发生严重高温腐蚀的主因。随后，提出了高速直流贴壁风改造方案，在前后墙各布置4层喷嘴，采用一次风为风源，以10°夹角斜向送入高温腐蚀严重的区域，并采用数值模拟对该方案的实施效果进行预测分析。最后，在该锅炉上实施了改造方案，进

期刊

愈创木酚液相催化加氢脱氧制备高附加值燃料化合物的研究

现如今,人类对生态环境的破坏日益严重,其原因之一就是来自于化石燃料的大量使用。科学家们在探索绿色清洁能源的过程中,发现生物质是一种全球储量十分丰富的可再生能源,如纤维素、木质素等,其热解得到的产品是非常绿色而经济的燃料替代品。但由于其快速热解所得到的生物油黏性较强,且含氧量和含水量都偏高,化学性质不稳定,因此不适合直接作为燃料使用。所以,本研究对生物油进一步加氢精制来有效地解决这些问题。为了达到这

学位

企业业财融合存在的问题及应对举措

业财融合从价值角度对企业业务活动进行事前预测和流程梳理，发现增值流程，并将这些信息反馈给业务部门，指引业务前端，为管理决策提供依据。业财融合有助于企业快速响应外部环境，提高决策效率和效果。目前业财融合正逐步被企业所应有，实践中遇到了许多问题。本文先阐述了业财融合的内涵，再对从观念意识、管理机制、人才培养及数据信息系统等各方面对目前企业在业财融合过程中存在的问题进行了分析，并提出相应的解决方案，从而

期刊

古琴凄凉调调意研究

凄凉调调意包括《凄凉意》《楚商意》两首，最早见于《神奇秘谱》,后分别存见于明清共十五部琴谱中。在琴谱的传承与流变中，两首调意形成了多种版本体系，《凄凉意》的诸多版本在宫系、调式、结构、词曲关系等方面呈现稳定的特征，在音阶、旋律、指法方面较为灵活；《楚商意》的版本流变相对稳定，体现了明代浙派徐门琴谱较为规范的传承特点。由于凄凉调定弦的特殊性，该调琴曲在调高方面有多种可能。《凄凉意》与《楚商意》中包含

期刊

基于上下文无关和上下文相关的情感识别研究

与本文相关的学术论文