论文部分内容阅读
语言中包含了丰富的情感信息,在过去几十年中,语音情感识别的相关研究取得了巨大的进步。近年来,深度学习在各个领域都取得了巨大成功。与传统特征相比,深度学习特征具有更多的内在信息,然而如何合理的设计相关算法以及模型结构仍需要探索和研究,本文研究了基于深度学习的语音情感特征提取及处理算法,主要内容如下:1.主要介绍了语音情感识别的相关研究意义和背景,国内外研究现状以及存在的问题,并详细介绍了本文的主要工作以及组织结构。2.主要研究了语音情感识别的系统流程,从情感描述模型、语音情感数据库、情感特征提取和情感分类器四个部分分别进行了研究。3.提出了一种基于卷积神经网络(CNN)特征表征的语音情感识别模型。该卷积模型以LeNet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该卷积网络模型中,对特征变换表征,最后利用SoftMax分类器实现情感分类。在公开数据库上的识别结果验证了网络模型的有效性。4.单一网络模型对特征的学习效果有限,为了提高模型对情感特征的学习能力,提出了一种基于卷积神经网络和简单递归单元(SRU)的串行网络模型。首先提取分段的三维谱图特征作为模型的输入,并使用预训练的CNN模块对这些特征进行学习,然后利用SRU模块对这些分段特征进行融合,最后使用分类器将情感进行分类。在Emo-db和CASIA数据库上的实验结果表明,该模型能够有效地识别语音中所包含的情感信息。5.由于模型之间串行的连接方式可能导致网络进行特征学习的过程中丢失重要的情感信息,为此,提出了一种的并行网络模型结构,分别由长短期记忆网络(LSTM)模块和CNN模块组成。首先,提取出每段语音数据中的帧级特征,将其送入LSTM模块中逐帧学习,同时,提取每段语音数据的谱图特征,并求其一阶导数和二阶导数,组成三维谱图特征,在CNN模块中对这些特征进行学习,然后将两个模块中所提取的特征整合并进行批归一化处理,最后使用SoftMax分类器对情感进行分类,在Emo-db和CASIA数据库上的实验结果表明了所提方法的优越性。