论文部分内容阅读
语言是人类特有的表达情感的重要工具,话语中不仅包含语义信息,也包含人们特定的情绪心理特征。传统的语音处理系统往往着眼于内容的准确性,忽略了对心理特征的研究。近年来,随着人机自然交互、心理检测、智能机器人等诸多领域的应用需要,针对语音信号分析辨识其中的情感特征,受到越来越多的研究人员的关注,语音情感识别成为语音处理领域一个新的研究热点。但是,目前对情感识别的研究还不深入,在情感语音数据库的建立、情感特征参数提取、情感识别方法等诸多方面的研究还没有形成系统的理论。研究人员对英语的分析较多,而对汉语的研究较少。另外,情感参数的选取主要集中在语音声学方面,而对融合了语义、面部表情、人体生理信息的多模式识别研究较少。因此,可以说语音情感识别尚处于初步阶段,还有许多工作须要深入下去。本文以多语种情感语音为研究对象,对语音情感数据库的建立、语音声学特征参数的提取、基于声学特征的情感识别、结合语义的情感识别等问题进行了深入的研究,主要包括以下内容:第一,选择平静、高兴、愤怒、惊奇和悲伤5种情感状态,在实验室环境下录制情感语音样本,建立包括汉、英、日、韩、俄等在内的多语种情感语音数据库。第二,分析了不同情感状态下多语种语音信号的声学特征,提取了韵律特征参数,对不同语种的情感语音进行了声学特征的比较,得出了语音情感特征的一般规律,即在同一情感状态下,不同语种的声学特征存在相似性。第三,以多语种情感语音数据库为样本集,分别运用主元素分析法及高斯混合模型法进行了情感识别实验,其中主元素分析法取得了74.2%的平均识别率,高斯混合模型法则获得了78.1%的平均识别率。第四,在分析声学特征的基础上,结合语义信息对语音情感进行识别。首先对带有情感色彩的词汇进行标注,通过动态时间规整算法识别语句中的情感关键词,提取语句的语义信息。然后将语音信号的韵律特征与语义信息结合,采用高斯混合模型法进行识别。实验结果表明,结合语义信息的情感识别率比单纯使用韵律特征的识别率高3个百分点。本文的主要创新,一是建立了多语种情感语音数据库,通过声学特征参数的提取、分析,得出了语音情感特征的一般规律;二是在韵律特征的基础上结合语义信息,进行了情感识别实验,获得了比使用韵律特征更高的识别率。