论文部分内容阅读
语言是人类交流信息的主要媒介,它不仅包含丰富的语义信息,而且承载丰富的情感信息。如何使计算机从语音信号中识别出说话人的情感状态,从而实现自然人机交互,具有重要的研究意义。针对语音情感识别中识别速度慢以及精度低的问题,本文提出通过构建二叉树结构的多级SVM对多类情感进行分类的方案,并使用遗传算法进行特征降维,以进一步提高语音情感识别系统的识别性能。本文首先对语音信号进行预加重、加窗分帧、端点检测等预处理后提取语音能量、基音周期、共振峰以及MFCC等常用的情感特征,然后通过构建二叉树结构的多级SVM对多类情感进行分类,该模型采用先将容易区分的情感分开,进行粗分类,然后对容易混淆的情感进行细分类的“先易后难”原则,逐层实现对多类情感的分类。在包含7种情感的柏林情感语料库上进行实验,结果证明该模型在保持SVM高效分类优势的同时,还发挥了二叉树结构高效计算的特点。由于不同特征对情感的区分能力不一样,并且特征维数太高在建模时容易出现过拟合现象,导致建模时间长,识别精度低,因此可以通过对提取的情感特征进行优化筛选后对分类模型进行训练,以进一步优化二叉树结构的多级SVM。本文使用遗传算法进行特征降维,即从提取的若干特征中筛选出关键特征,该方法是一种自适应的全局最优解搜索方法,并且不改变所选特征的数值,能构造出较好的模型。同样在柏林情感语料库上进行实验,结果证明使用降维后的情感特征对分类模型进行训练,能有效提高系统的识别率。深度置信网络作为一种深度学习结构,它的特点是首先利用贪心无监督学习逐层训练,为网络获得较好的初始点,然后利用有监督学习优化整个深层架构,使得网络具有较强的数据抽象能力和分类能力。因此本文最后使用深度置信网络进行了语音情感识别实验,在相同的数据集上得到了有效的分类结果。