论文部分内容阅读
语言是现实中人与人之间交流的主要手段,而语音是传递语言的最基本、最直接的途径。在语音信号中包含说话人要表达的语义信息以及说话人的情感信息,其中,情感信息在人们的交流中具有重要作用。因此,随着人机交互技术的快速发展,语音信号中个情感信息越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方向,语音情感识别是计算机理解人类情感的关键,是实现智能化人机交互的前提。但是,目前对情感识别的研究还不够深入,在情感语音数据库的建立、情感特征参数的提取、情感识别方法等诸多方面的研究还没有形成系统的理论。因此,可以说语音情感识别尚处于初步阶段,还有许多工作要深入下去。本文首先概述了语音信号情感识别涉及的研究领域及应用,并简单介绍了近几年国内外语音情感识别的最新研究动态。在此基础上,针对传统的情感特征提取大部分只是提取反映唤醒度的韵律特征,而没有或很少关注反映愉悦度的音质特征以及反映听觉特性的Mel频率倒谱系数(Mel-frequency Cepstral Coeffients, MFCC)的问题,提出了结合韵律特征、音质特征和MFCC特征的参数情感特征提取,并用主成分分析法对提取出的原始特征进行降维和去冗余处理,最后用支持向量机进行语音情感识别实验,并进行了分析。论文的主要研究内容和工作包括以下几个方面:(1)构建情感语音数据库。本文选取本身不带有情感信息的12句文本,由10名在校学生分别用不同情感去朗读,录制了带有高兴、愤怒、惊奇和悲伤4种不同的情感的语音数据库,为了进一步增强语音库的情感真实性,又搜集了电影的、电视里的四种情感语句,最终形成了2440句情感语音作为实验数据。(2)情感特征参数的分析与提取。情感的变化通过情感特征参数的差异而体现。本文分别从韵律特征、音质特征和MFCC中提取特征参数,韵律特征在声学上通常由基音、振幅和语速等表示。在声学上,音质特征用共振峰体现和谐波噪声比来体现。本文从语音的语速、基音频率、振幅能量、共振峰、谐波噪声比和MFCC等几个方面提取语音情感特征参数,总共提取出韵律特征参数12个、音质特征参数16个和MFCC特征参数12个共40个的原始特征参数。(3)基于主成分分析和支持向量机的语音情感识别实验。语音情感识别属于模式识别的一种,是建立在特征参数提取的基础上。本文结合提取出的40个特征参数,经过主成分分析,使得到的新的特征向量各分量之间具有独立性,去除了特征矢量之间的冗余,同时也降低了输入的特征矢量的维数,采用支持向量机进行了情感识别,并对采用不同的特征参数的识别结果进行了比较和分析,验证了音质特征和MFCC特征的有效性。