论文部分内容阅读
随着科学技术的快速发展,新型的人机交互(Human Machine Interaction, HMI)技术逐渐成为当前计算机科学领域的研究热点。语音情感识别的研究对于增强计算机的人性化和智能化,建立新型人机交互环境等具有重要的现实意义,并将产生很好的经济和社会效益。本文首先简述了课题的研究背景及文中的主要研究内容,回顾并分析了现阶段国内外语音情感识别中涉及的几个关键技术,包括情感的分类、情感语料库的建立、语音情感特征提取以及情感分类算法等。在此基础上,采用多重分形理论分析语音信号在高兴、生气、悲伤和平静4种不同情感状态下的混沌特性,进而提取了多重分形谱特征和广义Hurst指数作为新的情感特征参数参加语音情感识别。具体内容如下:(1)基于柏林实验室的德语语料库EMO-DB,观察并分析了在高兴、生气、悲伤和平静四种情感状态下,语音信号的基频、能量振幅、过零率、共振峰以及Mel倒谱系数MFCC等特征的变化规律。(2)提出了基于多重分形的语音情感特征参数的提取方法。介于传统情感语音特征缺乏对语音混沌特性的表征,采用多重分形理论通过分析不同语音情感状态下的多重分形特征,提取多重分形谱参数和广义Hurst指数作为新的语音情感特征参数。多重分形特征的引入,弥补了传统线性特征在刻画不同情感类型特征上的不足。(3)根据多重分形对将强度较高的情感(高兴和生气)与强度较低的情感(悲伤和平静)有良好区分度的特性,通过建立SVM二叉树的中间节点,实现对情感类别间的粗分类,保证了将容易混淆的情感类别划归为一组,以便深入分析不同情感状态之间的细微差别。进而采用贡献最大的特征矢量对中间节点上的每组情感再进行分类,其贡献值的确定由经验而得。最后,实现了较为理想的基于经验性特征的SVM二叉树语音情感识别。