论文部分内容阅读
语音情感识别是社会信号处理研究的重要内容,其目的就是研究如何使计算机能通过人的语音来判断人的情感。该研究涉及两个重要步骤:如何抓住语音中的情感特征和如何对特征进行良好的情感识别。本文将针对语音信号的情感特征提取和分类问题开展研究。
在提取语音的情感特征方面,传统研究主要集中在韵律特征、全局统计特征和时域特征上,而本文使用的情感特征包括基音、共振峰、语速、能量、mfcc、E250等,覆盖了韵律特征和音质特征,全局统计特征和短时时序特征,时域特征和频域特征,从而使特征中包含较全面的情感鉴别信息。
在语音信号的情感识别方面,应用了偏最小二乘回归分析,考虑到偏最小二乘回归作为线性分类器的局限性,本文又采用了核偏最小二乘回归方法,将可能呈非线性分布的原始数据映射到核空间使之呈线性分布,然后再进行偏最小二乘回归。不过向高维特征空间的投影带来了新的问题,高维特征数据往往包含较多的冗余和相关信息,考虑在后续处理前先对它进行降维去相关,由此引入核主成分分析偏最小二乘回归。又因为样本数据通常包含噪声,得到的回归模型往往不精确,且样本容量越小这种不精确越明显,为了解决这个问题,本文在核主成分分析偏最小二乘回归的基础上又进一步提出稀疏核主成分分析偏最小二乘回归,在求解KPCA的特征方程时,通过附加惩罚项来使样本系数收缩稀疏,从而实现样本选择的功能。
在对全局统计特征的实验里,本文对比研究了k近邻、高斯混合模型和偏最小二乘回归、核偏最小二乘回归、核主成分分析偏最小二乘回归、稀疏核主成分分析偏最小二乘回归等语音情感识别方法。在对短时时序特征的实验里,本文采用了传统的隐马尔可夫模型进行分类研究,并与基于全局统计特征的实验结果作了比较分析。
本文基于matlab平台,针对柏林的公开语音情感库EMO-DB,独立完成了对整个语音情感识别系统从前端数据处理、特征提取到后期情感识别的整个流程研究。