语音情感识别研究与应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:c546852942
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,如何让计算机自动识别出人的情感状态,使计算机能像人一样进行自然、亲切和生动的交互,是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。随着情感计算理论研究的深入,基于机器的情感识别这一交叉学科研究正得到心理学、语言学、神经系统科学、计算机科学等相关领域内越来越多研究学者的广泛关注。语音信号传递了丰富的情感信息,同时语音情感识别使用的交互界面简单、不需很多复杂设备,在低成本交互系统的实现上有着巨大的潜力,在远程教学、电子机器宠物、辅助测谎、自动远程电话服务中心以及临床医学等方面有着广阔的应用前景。本文针对语音情感识别技术中特征提取、分类器模型、小样本、工程应用等问题,开展关键问题研究,主要完成了以下工作:   (1)传统的语音情感识别研究将语音信号近似为线性短时平稳信号,用以傅里叶分析为理论基础的各种信号分析方法进行语音处理和情感识别。为弥补这种近似分析的缺陷,本文采用针对非线性和非平稳信号的Hilbert-Huang变换进行语音分析,同时引入非线性Teager能量算子,提出了一种新的谱特征:Hilbert-Teager子带锥量倒谱系数(HT-SECC),实验结果表明,HT-SECC特征相比于传统谱特征MFCC的平均情感识别率提高了约5.5%。   (2)产生式模型,精于类内分布建模,但不能直接优化分类结果,同其分类效果受限于已知样本数;判别式模型,对分类结果的优化比较理想,但它不能反映训练数据本身的动态特征。针对这些问题,根据任何情感都是平静情感变化而来的特性,提出了层叠式GMM-NBM-MAP/SVM混合模型的语音情感识别方法,实验证明该模型较单独的GMM(MixtureGaussianmodel)、SVM(SupportVectorMachine)模型分类能力强。   (3)语音是一种短时平稳时频信号,因此大多数的研究者都通过分帧来提取情感特征,而分帧后提取的特征无法准确反应情感语音全局及动态特性;传统的融合算法,如投影矩阵特征融合算法,需要计算大量的独立权值。针对这些问题,本文先在不分帧的语音信号里通过多尺度最优小波包分解提取语句级全局特征,分帧后再提取384维的语句级局部特征,最后提出一种弱尺度融合策略来将这两种语句级特征进行融合。实验结果表明本文方法在小样本的情况下,语音情感识别率波动较小。   (4)语音情感特征受传感器位置、遮挡、姿势变化影响较小,但是易受环境噪声影响,且情感表征性略差;而人脸表情特征具有相反的特性。本文结合语音情感特征和人脸表情特征用于情感识别,并取得较好效果。语音提取MFCC(MelFrequencyCepstrumCoefficient)特征,采用SVM作为分类器;人脸表情提取面部标记点(视频提取的图片序列)均值、方差作为特征,采用GMM-NBM-MAP/SVM混合模型为分类器。最后引入遗传算法、最大置信度空间等算法对识别结果在决策级融合。   (5)作为情感识别的应用案例,本文设计了基于ARM+DSP的精神抚慰机器宠物,该宠物主要是通过自动检测“主人”的情感状态,并通过对话、唱歌、讲笑话等方式对“主人”进行抚慰。针对情感识别率在针对非特定人时识别率不高的问题,本文通过引入说话人识别模块,根据结果来选择不同的语音情感识别模型、人脸五官模板,将非特定人情感检测转化为特定人情感检测,提高了最终的识别率,4位实验者在实验室环境下进行的情感检结果也说明该方法的有效性。
其他文献
铜闪速熔炼是现代火法炼铜的主要方法。由于熔炼过程机理复杂、关键工艺参数无法实时测量及参数之间关联耦合严重,导致熔炼过程建模及优化控制困难。熔炼过程中积累了大量生
RoboCup救援仿真系统是一个通过模拟现实生活中的城市地震发生后,用机器人智能体搜索整个城市并实施灾难救援工作的多智能体系统。系统具有智能体的异构性、任务关系的复杂性
平顶光束被发现以来,其独有的特性就引起众多研究者的兴趣,并将其应用到诸多领域。平顶分布光束指的是强度分布均匀的光束。光镊即单光束梯度力势阱,是由在高聚焦光束的束腰
近邻分类算法作为经典的机器学习算法之一,因其无需估计参数、易于实现、适合多分类问题的特点,近年来在广告、聊天机器人、网络安全、医疗保健、营销策划等领域得到了广泛应
当今社会,机器人取得了飞速发展,但是机器人的动力供给问题却始终是约束其进一步发展的瓶颈。传统的动力电池存在充电时间长、体积大、移动不便以及寿命短的弊端,这些不仅限
当今社会中,机器人的应用领域不断扩大,四足仿生机器人在复杂地况中的移动性能远远超过轮式、履带机器人,能够像人类或动物一样行走在崎岖不平的道路上。四足仿生机器人行走
非线性系统控制器设计一直是系统控制领域的一个研究热点,同时,由于缺乏系统的设计方法,也是系统控制领域的一个研究难点。非线性随机系统,作为非线性系统的重要组成部分,由于考虑
氧化锌避雷器(MOA)是现代电力系统中过电压保护的重要器件。由于长期工作在室外,其内部很容易老化以及受潮,这不仅影响氧化锌避雷器的工作效果,更容易引起事故。为保证其发挥正常作用,需要定期进行检测。目前的检测方法大多是通过分析氧化锌避雷器泄漏电流中的阻性分量以判断其性能的优劣。但由于泄漏电流中阻性分量的成分很小,并且容易受现场测量环境,以及电网谐波的干扰,因此需要设计检测准确并且使用方便的测试仪。本
病理嗓音(Pathological voice)的自动识别检测在临床上已经成为某些重大疾病预防及早期诊断的重要手段,本文首先采用基于归一化 Poly核函数的支持向量机(SVM)算法进行病理嗓音的识
近年来,手势识别控制已经成为国内外智能机器人领域一个重要的研究课题,是一种非常灵活的人机交互。为了改变传统的以机器为中心的交互方式,本文采用以手势识别为中心且在复