基于CNN和BLSTM的特征融合的语音情感识别研究

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:yubil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何实现计算机的拟人化,使其能够感知人类的情感,自适应地为对话者提供舒适的对话环境,语音情感识别扮演着重要的角色。语音作为人类的主要交流媒介之一,不仅包含基本的文本信息,而且蕴含丰富的情感信息。如何从语音信号中提取情感信息对语音情感识别具有重要意义。然而,由于情感数据库的建立、情感特征的寻找、建模算法的研究等因素,语音情感识别一直充满挑战性。在传统的语音情感识别研究中主要集中于特征提取,这些研究大多致力于设计一些最具特色的手工特征进行情感识别。自深度学习诞生以来,许多深度神经网络快速而被广泛地应用于语音识别、图像识别以及自然语言处理等领域中,这给语音情感识别带来了新的思路,即利用深度学习获取最佳特征表示。本文以传统的语音情感识别方法为基础,以已有的深度神经网络研究进展为动力,利用卷积神经网络(Convolutional Neural Networks,CNN)、双向长短时记忆(Bidirectional Long Short-Term Memory,BLSTM)网络及特征融合实现语音情感识别。具体研究内容如下:(1)BLSTM网络结合了长短时记忆网络和双向循环神经网络的优点,能够学习语音序列的时间上下文信息。考虑到BLSTM不同层都有输出,如果把每一层的输出结合在一起,可以实现浅层特征与深层特征的融合。BLSTM每一层特征的相加融合,实际上是用低层网络信息补充高层网络信息。提出一种面向语音情感识别的多输出BLSTM网络模型,使其能够充分利用每一层输出的上下文信息。在EMO-DB情感数据库使用7类情感进行实验取得了92.27%的加权准确率和91.30%的未加权准确率。使用同样的网络模型在CASIA库上进行实验,其中加权准确率达到了85.56%,未加权准确率达到了85.56%。在中文语音环境下,多输出BLSTM网络模型仍然保持了较好地迁移性。这些实验结果表明,上下文信息得到了充分利用。(2)虽然多输出BLSTM模型在EMO-DB和CASIA库上表现优秀,但是在IEMOCAP库上的性能明显下降。针对基于深度学习的语音情感识别仅局限于使用声谱图或手工特征作为输入,然而并不能捕捉足够的情感信息的缺陷,提出一种基于CNN和BLSTM的特征融合方法来学习更丰富的情感特征,该方法是将空间特征和上下文特征相结合。使用logmel声谱图作为CNN的输入,利用CNN提取语音信号的空间特征,使用统计特征作为BLSTM的输入,利用BLSTM提取语音信号的上下文特征。两个模型从不同的角度感知不同的情感信息,共同学习具有较好识别性能的情感特征。在IEMOCAP情感数据库上进行识别测试,获得的加权准确率和未加权准确率分别为74.14%,65.62%。此外,和现有的模型进行对比,验证了CNN-BLSTM特征融合模型的有效性。(3)最后,提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。我们建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM两种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该系统的有效性,分别在IEMOCAP、EMO-DB和CASIA三种不同的情感数据库上进行识别测试,实验结果表明,提出的方法在加权准确率和未加权准确率均优于基线模型。
其他文献
实际应用领域涌现出大量的短文本数据流,如:微博数据、实时弹幕和实时评论等。其主要具有两大特点:一方面每个文本都十分短小,缺少充分的上下文语义信息;另一方面,随着时间推
基于变异的错误定位(Mutation-Based Fault Localization,MBFL)是一种基于变异测试的自动化程序错误定位技术,具有错误定位精度高的优点,但其需要通过植入故障生成数量众多的
爆轰发动机是一种新概念发动机,具有燃烧效率高,污染排放少的优点,在许多领域有广阔的应用空间。但是要将爆轰技术成功应用还面临很多问题。目前绝大多数爆轰试验都使用可燃
随着工业“三废”排放的增多,我国农田土壤镉(Cd)污染现状日益严重。在不改变耕地利用现状的前提下,通过施加改良剂来修复受Cd污染的农田,对保证我国粮食安全生产具有重要意义。本研究以受不同程度Cd污染的棕壤(5.0 mg/kg和10.0 mg/kg)为供试土壤,采用盆栽试验的方法,研究施加低量Mn(20 mg/kg的MnSO_4)、中量Mn(200 mg/kg的MnSO_4)和高量Mn(2000 m
内蒙古是我国沙漠、沙化土地面积最多的省份之一。近年来自治区将沙区生态产业视为一项具有战略意义的产业,已逐渐成为地区生态经济的一大亮点。充分利用现代化科学技术是沙
随着互联网时代的到来,学习不再拘泥于时空的限制,学习者利用网络可以选择在任何时间和地点进行学习,虚拟学习社区(Virtual Learning Communities)也在网络学习的变革中应运
随着现代医学与互联网技术的蓬勃发展,大量患者需要进行染色体分析以获得精确诊断。传统的染色体分析系统都是利用专业软件进行线下分析,而且只有特定的医疗机构和一些研究所
振荡器是无线通信、雷达、导航等系统的核心组成部分之一,其性能直接影响整个系统的参数指标。现代通信、雷达等系统对于微波振荡器的相位噪声与稳定性等方面的性能要求不断
太赫兹(Terahertz,THz)波为频率在0.1~10 THz之间的电磁波,太赫兹技术已成为全球科学研究的热点。太赫兹四分之一波片是一种极化转换器件,其可在太赫兹波段实现线极化波与圆极
本文设计了一种深海着陆器的整体结构,首先利用有限元分析软件对它的结构进行了静力学分析,然后根据深海着陆器在水下的运动状态对其入水过程和沉底碰撞过程进行了动力学分析。主要内容包括:(1)介绍了深海着陆器的发展历程和国内外研究现状。(2)对深海着陆器的整体结构框架进行设计,对浮体材料进行选择,对重要的结构进行静力学分析和结构优化设计,在满足工作要求的前提下得到了耐压容器内径和壁厚的最优组合。(3)由于