论文部分内容阅读
语音作为人们日常交流最重要的方式之一,其中蕴含了大量的跟情感相关的信息。随着近年来人工智能的发展以及技术研究的深入,使得人机交互成为了当今的研究热点,让机器具备跟人一样能识别和表达情感的能力成为研究者们的目标,语音情感识别的重要性也日益凸显出来。语音情感识别是语音处理领域富有挑战性的课题之一,它的应用非常广泛,因此,这项研究具有重要的理论意义和应用前景。目前,在语音特征提取方面,大多数研究者选择的是韵律特征、音质特征或者是基于谱的特征,而把时域和频域结合在一起的研究则相对较少。而语谱图具有把时域信息和频域信息结合在一起的特点,它本身就包含了大量跟语音相关的信息,因此本文选用语谱图来提取语音情感特征。本文的主要研究工作如下:1)阐述了语音情感识别的研究背景和意义,对语音情感识别的研究历史和现状做了简单的归纳总结,研究情感分类的模型、常用的语音情感数据库。2)对语音情感数据的预处理能够提高分析精确度,本文对语音的预处理包括预加重、分帧加窗和端点检测,经过预处理之后,提取出语音信号的基音频率、短时能量、短时过零率、共振峰和梅尔倒谱系数等参数组成情感特征矢量。3)在简单研究人工神经网络的发展、基本的模型、分类的基础上,运用典型的多层感知器——BP(Back Propagation)网络进行语音情感识别的实验,并运用增加动量项对BP网络进行优化。实验结果表明,改进的BP网络的识别率高于普通的BP网络。4)研究典型的深度学习网络结构——卷积神经网络(Convolutional Neural Network,CNN),并将其与传统的人工神经网络进行了对比,重点研究CNN的基本原理和优势。本文提出将语谱图和CNN结合进行语音情感识别的研究,通过实验找到最佳的网络模型结构,在不同的环境以及不同的信噪比下进行对比实验,并选用softmax和支持向量机(Support Vector Machine,SVM)两种不同分类器做对比。为了更进一步的验证算法的有效性,将实验在不同的语音库上进行。实验结果表明,将语谱图和CNN相结合的方法大大地提高了语音情感的识别率,并且使用SVM作为分类器效果比softmax的识别效果更好。