论文部分内容阅读
随着计算机技术的发展,如何让计算机自动识别出人的情感状态,使计算机能像人一样进行自然、亲切和生动的交互,是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。随着情感计算理论研究的深入,基于机器的情感识别这一交叉学科研究正得到心理学、语言学、神经系统科学、计算机科学等相关领域内越来越多研究学者的广泛关注。语音信号传递了丰富的情感信息,同时语音情感识别使用的交互界面简单、不需很多复杂设备,在低成本交互系统的实现上有着巨大的潜力,在远程教学、电子机器宠物、辅助测谎、自动远程电话服务中心以及临床医学等方面有着广阔的应用前景。本文针对语音情感识别技术中特征提取、分类器模型、小样本、工程应用等问题,开展关键问题研究,主要完成了以下工作:
(1)传统的语音情感识别研究将语音信号近似为线性短时平稳信号,用以傅里叶分析为理论基础的各种信号分析方法进行语音处理和情感识别。为弥补这种近似分析的缺陷,本文采用针对非线性和非平稳信号的Hilbert-Huang变换进行语音分析,同时引入非线性Teager能量算子,提出了一种新的谱特征:Hilbert-Teager子带锥量倒谱系数(HT-SECC),实验结果表明,HT-SECC特征相比于传统谱特征MFCC的平均情感识别率提高了约5.5%。
(2)产生式模型,精于类内分布建模,但不能直接优化分类结果,同其分类效果受限于已知样本数;判别式模型,对分类结果的优化比较理想,但它不能反映训练数据本身的动态特征。针对这些问题,根据任何情感都是平静情感变化而来的特性,提出了层叠式GMM-NBM-MAP/SVM混合模型的语音情感识别方法,实验证明该模型较单独的GMM(MixtureGaussianmodel)、SVM(SupportVectorMachine)模型分类能力强。
(3)语音是一种短时平稳时频信号,因此大多数的研究者都通过分帧来提取情感特征,而分帧后提取的特征无法准确反应情感语音全局及动态特性;传统的融合算法,如投影矩阵特征融合算法,需要计算大量的独立权值。针对这些问题,本文先在不分帧的语音信号里通过多尺度最优小波包分解提取语句级全局特征,分帧后再提取384维的语句级局部特征,最后提出一种弱尺度融合策略来将这两种语句级特征进行融合。实验结果表明本文方法在小样本的情况下,语音情感识别率波动较小。
(4)语音情感特征受传感器位置、遮挡、姿势变化影响较小,但是易受环境噪声影响,且情感表征性略差;而人脸表情特征具有相反的特性。本文结合语音情感特征和人脸表情特征用于情感识别,并取得较好效果。语音提取MFCC(MelFrequencyCepstrumCoefficient)特征,采用SVM作为分类器;人脸表情提取面部标记点(视频提取的图片序列)均值、方差作为特征,采用GMM-NBM-MAP/SVM混合模型为分类器。最后引入遗传算法、最大置信度空间等算法对识别结果在决策级融合。
(5)作为情感识别的应用案例,本文设计了基于ARM+DSP的精神抚慰机器宠物,该宠物主要是通过自动检测“主人”的情感状态,并通过对话、唱歌、讲笑话等方式对“主人”进行抚慰。针对情感识别率在针对非特定人时识别率不高的问题,本文通过引入说话人识别模块,根据结果来选择不同的语音情感识别模型、人脸五官模板,将非特定人情感检测转化为特定人情感检测,提高了最终的识别率,4位实验者在实验室环境下进行的情感检结果也说明该方法的有效性。