论文部分内容阅读
如何实现计算机的拟人化,使其能够感知人类的情感,自适应地为对话者提供舒适的对话环境,语音情感识别扮演着重要的角色。语音作为人类的主要交流媒介之一,不仅包含基本的文本信息,而且蕴含丰富的情感信息。如何从语音信号中提取情感信息对语音情感识别具有重要意义。然而,由于情感数据库的建立、情感特征的寻找、建模算法的研究等因素,语音情感识别一直充满挑战性。在传统的语音情感识别研究中主要集中于特征提取,这些研究大多致力于设计一些最具特色的手工特征进行情感识别。自深度学习诞生以来,许多深度神经网络快速而被广泛地应用于语音识别、图像识别以及自然语言处理等领域中,这给语音情感识别带来了新的思路,即利用深度学习获取最佳特征表示。本文以传统的语音情感识别方法为基础,以已有的深度神经网络研究进展为动力,利用卷积神经网络(Convolutional Neural Networks,CNN)、双向长短时记忆(Bidirectional Long Short-Term Memory,BLSTM)网络及特征融合实现语音情感识别。具体研究内容如下:(1)BLSTM网络结合了长短时记忆网络和双向循环神经网络的优点,能够学习语音序列的时间上下文信息。考虑到BLSTM不同层都有输出,如果把每一层的输出结合在一起,可以实现浅层特征与深层特征的融合。BLSTM每一层特征的相加融合,实际上是用低层网络信息补充高层网络信息。提出一种面向语音情感识别的多输出BLSTM网络模型,使其能够充分利用每一层输出的上下文信息。在EMO-DB情感数据库使用7类情感进行实验取得了92.27%的加权准确率和91.30%的未加权准确率。使用同样的网络模型在CASIA库上进行实验,其中加权准确率达到了85.56%,未加权准确率达到了85.56%。在中文语音环境下,多输出BLSTM网络模型仍然保持了较好地迁移性。这些实验结果表明,上下文信息得到了充分利用。(2)虽然多输出BLSTM模型在EMO-DB和CASIA库上表现优秀,但是在IEMOCAP库上的性能明显下降。针对基于深度学习的语音情感识别仅局限于使用声谱图或手工特征作为输入,然而并不能捕捉足够的情感信息的缺陷,提出一种基于CNN和BLSTM的特征融合方法来学习更丰富的情感特征,该方法是将空间特征和上下文特征相结合。使用logmel声谱图作为CNN的输入,利用CNN提取语音信号的空间特征,使用统计特征作为BLSTM的输入,利用BLSTM提取语音信号的上下文特征。两个模型从不同的角度感知不同的情感信息,共同学习具有较好识别性能的情感特征。在IEMOCAP情感数据库上进行识别测试,获得的加权准确率和未加权准确率分别为74.14%,65.62%。此外,和现有的模型进行对比,验证了CNN-BLSTM特征融合模型的有效性。(3)最后,提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。我们建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM两种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该系统的有效性,分别在IEMOCAP、EMO-DB和CASIA三种不同的情感数据库上进行识别测试,实验结果表明,提出的方法在加权准确率和未加权准确率均优于基线模型。