基于人耳听觉特性的谱能量特征及其在情感语音识别中的应用

来源 :太原理工大学 | 被引量 : 4次 | 上传用户:dx3386136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感语音识别作为语音信号处理领域的一个重要的研究分支,在继承传统的语音信号处理技术的特点的同时,也与人类心理学、语音学、声学等多个学科相互渗透、交叉而形成语音处理领域中的一个热门的研究点。所谓情感语音识别就是赋予计算机一定的智能,使其能够正确地判断出所输入语音的情感状态。目前,随着计算机科学技术以及通信技术的快速发展,情感语音识别在人机智能交互方面也有着重要的理论意义和应用前景。本文研究的主要内容是提取基于人耳听觉特性的谱能量特征,并在此基础上进行了几种优化性改进。论文中采用的数据库为TYUT情感语音库和EMO-DB情感语音库,其中TYUT情感语音库包含中文和英文两种语种,EMO-DB情感语音库只包含德语语种。后续识别模型采用支持向量机。本文首先介绍并分析比较了LPCC、MFCC和ZCPA等几种经典的特征参数,然后分别就汉语、英语和德语三种语种设计了情感识别实验,并将实验结果作为后续所研究特征的参照。接着研究了基本的谱能量特征:AUSEES特征和AUSEEG特征,由于AUSEES特征和AUSEEG特征采用线性平均频带划分方法,不符合人耳听觉特性,所以本文采用模拟人耳听觉特性的Bark尺度和ERB尺度两种频带划分方法对基本的AUSEES、 AUSEEG特征进行了改进,得到基于人耳听觉特性的两类四种谱能量特征:AUSEES-Bark、AUSEEG-Bark和AUSEES-ERB、AUSEEG-ERB。将改进后的谱能量特征应用到情感语音识别中,实验结果表明,改进后的新特征的情感识别率明显提高,其中采用Bark尺度频带划分的谱能量特征的情感识别率相对最高,对不同语种的识别性能最稳定性。然后,本文后续工作以AUSEES-Bark、AUSEEG-Bark两种特征为主要研究对象提出了两种改进方法。首先利用LPCC参数主要反映声道响应的优点对AUSEEG-Bark特征进行了补偿改进,然后运用Teager能量算子对能量在不同频段上的搬移作用对AUSEES-Bark、AUSEEG-Bark特征进行了优化改进。实验结果表明这两种改进方法都是有效可行的,改进后的新的谱能量特征也都具有更好的情感分类效果,其情感识别率都有明显提高,其中,基于Teager能量算子的谱能量特征具有相对最为满意的情感分类效果。
其他文献
徐州工程机械科技股份有限公司(以下简称徐工科技)近期隆重推出小挖系列产品:EC40、EC60和EC80履带式液压挖掘机.作为该公司的最新产品,此次上市的系列小挖产品是该公司自主
电力公刊要以低成本向公众提供高质量的产品.同时,作为上市公司,还要为其股东带来投资回报.他们担负着一种保证高效运营的受托责任,而预测性维护是他们履行这一责任的不可缺
遥感技术具有侦查范围广,全天候,不受地理限制等优点,应用前景广阔。基于遥感图像的目标检测作为遥感图像应用中重要的一环,其对于资源调查、灾害检测以及军用侦查都具有重要
近几年来,一批化工尾气催化氧化处理系统在我国的石化企业建成投产,它成功解决了困扰企业因尾气的排放和处理带来的环境污染问题,并取得良好的经济效益和社会效益.
随着通信的发展,新的多媒体业务的出,以及各种业务需求的带宽流量的日益增大,用户对带宽的要求也日益增大。宽带光接入具有传输速率高、距离长、质量好、抗电磁干扰能力强、
AVS是我国具有自主知识产权的第二代数字音视频编解码算法标准,因为其本身具有高效率低复杂度等诸多优点,具有广阔的市场发展前景。国家广播电影电视总局对AVS编解码器已经统
随着网络技术的不断发展和企业信息化的推进,远程监控系统在食用菌工厂化生产方面的应用开始体现出它的优势,远程检测与控制、故障诊断、决策支持等功能为食用菌工厂的安全生
延迟/中断可容忍网络(Delay/Disruption-Tolerant Network, DTN)被认为是一种能够有效应对太空或空间受限通信环境的技术。数据传输的非对称性是太空通信的主要问题之一。目
煤矿的安全生产长期以来一直是煤矿产业主要的问题,虽然煤矿生产的安全性相比前十年以前有了很大的提高,但是近几年来煤矿事故仍然频繁,所以目前煤矿生产过程中的监控系统还存在
本课题来源于上海明波通信技术有限公司的多标准(DVB-S2/C2/T2标准和DTMB标准)数字电视解调方案的研发项目。与单标准数字电视解调方案相比,多标准数字电视解调方案具有低成