基于迁移学习的单模态语音和多模态语音视觉的情感识别研究

来源 :四川师范大学 | 被引量 : 0次 | 上传用户：guanjuntpplgj

【摘要】

：

【作者】

：

林龙

【机构】

：

四川师范大学

【出处】

：

四川师范大学

【发表日期】

：

2021年01期

【关键词】

：

单模态语音情感识别多模态语音视觉情感识别迁移学习多模态特征重构共享情感特征决策层融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

情感识别是计算机利用传感器采集到人的语音、表情和行为等数据来进行分析,从而来推断出人的情感状态,人类对于他人情感的识别主要是通过视觉模态或者语音模态来完成的。情感识别对于人机交互、医疗、刑侦、航天等领域有着重要的支撑作用。单模态语音情感识别是通过传感器采集到的语音信号来分析情感状态;多模态语音视觉情感识别是通过传感器采集到的语音、表情和行为等信号中的两种及两种以上的信号来进行分析情感状态。对于单模态语音情感识别和多模态语音视觉情感识别中,在国内外已有的研究中还存在如下两个问题。问题一,对于单模态语音情感识别,由于存在语音情感数据库分布不同、训练数据量过大、计算复杂度高和识别率不高等问题,导致单模态语音情感识别应用效果不佳。问题二,对于多模态语音视觉情感识别,由于存在不同模态的特征相互影响和模态缺失等问题,导致多模态语音视觉情感识别应用效果不佳。针对以上阐述的两个问题,本研究的主要工作可以分为以下3个方面:针对问题一,本文提出基于梅尔倒频谱图的迁移学习单模态语音情感识别。该方法基于单层LSTM和迁移的Inception-v3网络模型,将多语料库的语音数据集的梅尔倒频谱图做了数据增强后作为输入,通过单层LSTM前向传播后,进入预先训练好的Inception-v3模型提取特征,接着送入新定义的全连接和分类层训练,让最后一层的参数进行微调,最后得到分类结果。通过实验,多分布语音情感识别率达到67%,每一类的ROC曲线下的Accuracy面积、宏平均ROC曲线下的Accuracy面积和微平均ROC曲线下的Accuracy面积相差也非常小。该方法对多分布情感识别有较好的效果,并且该方法没有降低模型的性能。针对问题二,本文提出基于特征重构和粒子群特征融合的语音视觉多模态情感识别。该方法基于e NTERFACE’05视听情感数据集,即语音和视觉两种模态的数据,用CNN去提取视觉人脸关键帧和语音梅尔倒频谱图的高层情感特征,然后将其中一种模态的高层情感特征进行迁移学习,得到重构后的另外一种模态的高层情感特征,接着通过粒子群算法进行特征融合,从而得到多模态的共享情感特征,最后输入softmax分类器中进行分类训练,完成情感识别。通过实验,该方法使缺失模态的重构得到验证,解决不同模态的特征相互影响,并且比单模态的情感识别率和鲁棒性都要高,提升了情感识别的整体效果。针对问题二,本文提出另外一种新的解决办法,即基于特征重构和决策层融合的迁移学习多模态情感识别。该方法的视听情感数据集、视觉人脸关键帧和语音梅尔倒频谱图的高层情感特征和重构特征的方法都与上一种方法相同,不同点在分别将两个模态的特征输入softmax分类器进行分类训练得到概率矩阵集合,最后通过决策层融合中的融合规则完成情感分类。通过实验,该方法使缺失模态的重构得到验证,其中基于最小规则的决策层融合大的多模态语音视觉情感识别率最高,达到85.8%。该方法从一定程度上解决了模态缺失和模态之间相互影响的问题。

其他文献

动态图形在智慧家庭场景呈现中的应用研究

“智慧家庭”是依托智能家居技术的一种科技生活方式,由于多种因素,智能家居的发展始终处于内热外冷的状态。对于“智慧家庭”,大多数消费者的认识还仅停留在单一的智能硬件产品阶段。动态图形这一信息传播形式,为进一步推广和普及“智慧家庭”概念提供了优质解决方案。首先,文章论述了“智慧家庭”的相关概念、动态图形的造型特征,分析动态图形在“智慧家庭”概念推广中的适用性,将动态图形与电影电视艺术、影视动画、静态图

学位

动态图形可视化智慧家庭视觉造型

基于生成对抗网络的单幅图像超分辨率重建研究

单幅图像超分辨率重建（SISR）是一个经典的计算机视觉任务。单幅图像超分辨率重建主要目的是对输入的单幅的低分辨率图像进行空间分辨率的放大,使其成为高分辨率图像的技术。由于一张低分辨率图像可以由多张不同的高分辨率图像下采样而来所以使得超分辨率重建是一个病态问题。并且下采样的倍率越大,使得缺失的信息越多使得重建任务就会越为困难。近年来,使用卷积神经网络进行单幅图像超分辨率的结果远好于使用传统方法的重建

学位

单图像超分辨率重建生成对抗网络排序网络

基于深度学习的中文自动摘要生成技术研究

通过计算机从中文文本中提炼摘要,可以帮助人们从海量数据中快速获取关键信息,提高阅读效率。目前,基于Seq2Seq模型的生成式摘要技术是中文信息处理的研究热点。本文基于LSTM构建了融合词性特征和注意力机制的Seq2Seq生成式摘要模型,同时,提出基于GPT预训练模型的中文摘要生成方法,改善摘要生成质量。在2017NLPCC会议公开的自动摘要任务数据集上进行验证分析,采用ROUGE评测摘要生成质量。

学位

自动摘要Seq2SeqGPT词性特征

典型地形的SAR回波模拟及其快速实现

合成孔径雷达（SAR）凭借独特的全天时、全天候、高分辨的特点,在资源勘探、军事侦察、航空航天等领域中发挥了重要的作用。然而在实际的使用场景中,由于时间、飞行成本等诸多因素的限制,合成孔径雷达的回波数据无法完全通过实际的机载雷达采集。因而,SAR回波模拟技术具有极其重要的研究意义。本文从SAR回波模拟的真实性和高效性两个方面入手,对真实地形的三维建模、真实地形的散射系数计算、回波的快速生成算法及其并

学位

合成孔径雷达数字高程模型后向散射系数计算回波模拟算法GPU并行方案

邻域系统中基于三层粒结构的双量化距离度量和分类学习

邻域粗糙集是不确定性分析的重要工具,并与粒计算密切相关.因此邻域粗糙集所在的邻域系统成为相关信息粒化和度量计算的重要内容.在邻域系统中,已经从粒计算角度出发构造了三层粒结构（包括邻域粒、邻域群和邻域库）,建立了关于知识学习的粒度计算机制.但是,邻域系统三层粒结构的层次探索及相关应用还有一定的欠缺.因此,本文对邻域系统三层粒结构的相关度量进行了补充,并扩展到分类学习.本文的相关研究主要涉及三个方面.

学位

邻域粗糙集粒计算三层粒结构双量化距离测量机器学习

远程网络直播教学与传统教学的对比研究 ——以邛崃市平乐中学化学教学为例

近年来,随着我国教育事业的快速发展,新课程改革的脚步也在不断加快,其根本目的就是为了更好地适应时代的需求以提高教学效率、获得更优的教学效果。随着网络信息技术的不断发展,教学方式已经不再是以单一的传统教学为主了,远程网络直播教学已然成为了另一种新兴的教学模式,并且其独特的教学特点与传统教学形成了鲜明的对比。结合文献调研发现目前结合远程网络直播教学以及传统教学的对比研究相对较少,基于此本文采用比较研究

学位

新课改远程网络直播教学传统教学化学教学对比研究

浅谈中职学校混合式教学质量评价体系构建

中职学校进行混合式教学模式改革,必须构建适应中职学校的混合式教学质量评价体系。本文通过提出中职学校混合式教学质量评价体系的特点、评价体系的组成、评价计算方法和评价结果运用方案等,以期为更多中职教师开展混合式教学和构建教学质量评价体系提供借鉴。

期刊

中职学校混合式教学评价体系

前视SAR成像处理方法及硬件实现

前视合成孔径雷达（SAR）能够对平台正前方区域成像,具有抗干扰性好、隐蔽性强等特点,在精确制导、侦察测绘等领域具有重要价值。由于前视SAR成像处理对实时性要求高,而回波大数据量将导致成像实现非常困难;因此,研究前视SAR成像处理方法及硬件实现具有重要意义。前视SAR中的机载双基前视模式是各国研究的热点,本文以机载双基前视SAR为研究对象,进行了极坐标格式算法（PFA）、前视SAR信号处理机设计及P

学位

前视SAR数字信号处理器PFA算法并行处理

物联网环境中的访问控制方法研究

物联网将海量微型设备通过有线或无线方式基于互联网构建成一种大型泛在网络,这种网络能够实现异构信息间的互联、互通与互操作,实现所有物体的智能化连接。首先,大量异构底层智能设备接入使得用户接入和控制设备变得越来越复杂。没有统一的设备管理系统,用户在访问和控制设备时需要操作不同的物联网应用,访问不同的物联网云平台。这种碎片化的设备管理模式增加了异构设备的用户接入和控制复杂性,降低了应用可扩展性。其次,为

学位

物联网访问控制区块链隐私保护使用控制

眼光向下：大运河文化研究的一个视角

大运河文化,即因大运河而生、而变、而传播的文化,具有"开放""包容""交流""融合"等多方面的价值内涵。今天,虽然大运河在交通、商贸等方面的功能已大大降低,但在促进经济文化发展、建构国家形象等方面,仍具有重要价值与功能,因此保护并传承好大运河文化有其现实必要性。只是,如今的大运河文化研究及其保护、传承实践,更多是从宏观、上层等角度展开进行的,而缺乏对民间、民众与生活层面的关注。为此,我们应该在已有

期刊

大运河文化保护与传承眼光向下

基于迁移学习的单模态语音和多模态语音视觉的情感识别研究

与本文相关的学术论文