论文部分内容阅读
随着信息技术的不断发展,尤其是网络技术的日益普及和完善,人机交流变得越来越普遍,为使人机交流更自然、更从容、更人性化,基于语音的情感处理研究已经成为近年来一个重要的研究方向。语音情感识别技术不仅仅在增加计算机的智能化、开发人机交互环境、以及推动心理学、语言学和人工智能等学科的发展,有着不可替代的现实意义,并且它最终会产生巨大的经济和社会效益,目前它在智能玩具、自动电话服务系统和电子宠物等领域都得到了应用。本文的主要目的是在研究分析各种语音情感特征参数的提取方法,以及比较和筛选有效并具有可观的识别效果的分类器的基础上,建立可靠的语音情感识别模型。论文的主要内容是: (1)介绍语音情感信号的前端处理研究,即情感的分类、情感语音数据库的录制以及语音信号的预处理。简要阐述了语音数据库的分类和获取方法,重点介绍了预处理过程:去噪、预加重、数字化、加窗分帧和端点检测。这里提出了一种两级自适应滤波结构,用来滤除语音信号中常见的两种干扰:周期性干扰和高斯白噪声。 (2)提取和分析几种情感语音的时序特征参数:线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)和线性预测Mel频率倒谱系数(LPMFCC)。在此基础上,提出了基于经验模态分解(EMD)法的MFCC参数及其一阶差分参数的合成参数作为语音情感识别的特征向量,实验表明其可以产生比较好的识别效果。 (3)在传统的支持向量机的基础上,基于所选取的特征参数,构建了融合模糊思想和最小二乘支持向量机的语音情感识别模型。通常最小二乘支持向量机比传统的支持向量机法计算的速度更快,但训练精度有所下降。为了弥补这个缺憾,所以在其中引入模糊隶属度,从而在兼顾计算速度的前提下确保分类器的训练精度。