论文部分内容阅读
语音作为人类生活交流的载体,贯穿于每一个人的生活当中。伴随着人工智能的迅速发展,人们对于信息交流的渴望不止体现在语义的表达,更体现于机器对人类情感的理解。这种理解在人机交互过程中不再只是单纯地依靠机器机械地回应,而是有感知地对接收一段语音信号后做出伴有情感的反馈。因此,对于语音情感的识别是提升机器智能的重要因素,在人机交互领域的重要性不言而喻。为了提升语音情感识别的精度,增强人机交互的和谐,更好地建立人类与机器之间情感的连接,本文主要围绕以下两个方面进行研究:(1)为解决小数据集上存在深度学习过拟合且识别精度低的问题,提出一种基于语音和图像双重增强的卷积神经网络(Convolutional Neural Networks,CNN)与门控循环单元(Gated Recurrent Unit,GRU)网络结合的深度学习模型。该方法将原始音频通过上移和下移操作进行语音增强,将增强后的语音信号映射到Mel尺度并生成Mel功率谱图,然后对其做旋转、切角、偏移等图像增强操作,并结合卷积神经网络对频域特征的识别能力和门控循环单元网络对时序信息的特性获取能力构成融合模型CGRU,该模型通过自动学习深度谱特征并进行情感识别。结果表明,利用谱图特征在CGRU方法上的情感识别精度超过传统手工特征eGeMAPS在该数据库上的识别效果,提出的方法在语音情感识别任务上具备竞争力。另外,在相同的训练参数下,CGRU要比CLSTM具有更低的时间复杂度。(2)为从多重维度获取情感信息,进一步提升语音情感识别精度,弥补单一特征表征能力不足的问题,提出一种基于双通道特征的AtBiGRU模型。该方法对语音信号通过双重通道分别进行深度谱图特征和HSFs(High level Statistics Functions)特征提取,利用深层卷积的表征能力,并结合传统声学特征的经验与知识,构造包含局部和全局情感信息的融合特征。该融合特征通过Attention机制获取特征维度的权重值,经过Attention计算的融合特征作为双向GRU模型的输入,从时间方向捕捉语音信号的时域特征。结果显示经过前向和后向学习的AtBiGRU网络在IEMOCAP双通道特征上的情感识别率较融合之前的特征相比具有一定程度的提升。实验验证了不同的卷积特征对识别任务的影响,结果发现VGG16特征较VGG19特征而言更适合本任务的特征表示。实验搭建了不同架构的网络模型,结果表明双通道特征在双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)模型上的识别精度优于单向循环网络(Recurrent Neural Network,RNN)的识别结果。