论文部分内容阅读
语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别率。本文将该方法与人耳听觉效应相结合提出一种新特征CSS-MFCC(Cepstrum separation signal Mel-Frequency Cepstral Coefficients,倒谱分离信号梅尔频域倒谱系数),经实验表明将该特征与传统特征相结合后可以有效提高识别率,在德国柏林情感数据库识别率达到了84.29%。3.情感计算的最终目的是实现人与计算机之间的情感互动,所以我们提出了基于手机安卓系统的语音情感交互框架,设计并实现了基于安卓的语音情感识别系统,该系统可以使得安卓手机实现语音情感的计算与识别。