论文部分内容阅读
情绪的自动识别是人机交互中的关键技术之一,近年来越来越受到人们的重视。包含在人脸表情和语音信号中的情绪信息是极其重要的信息资源,本文提出一种基于语音、视觉多通道融合的自然情绪识别方法,利用语音信号与人脸表情中情绪信息之间的互补性来解决情绪识别问题,以获得相对于单一信号识别更为准确、可靠的识别效果。两个关键性的问题:1)如何确定一个音、视融合的情绪识别框架;2)针对不同信息通道,如何构造合适的识别器。本文在分析和总结领域内大量相关工作的基础上,提出了一个基于情绪基调判断的音、视融合情绪识别框架,其中语音通道采用隐马尔科夫模型(Hidden Markov Model,HMM)作为基本识别模型,视觉通道则采用随机森林(RandomForset)算法;设定两种情绪基调:正基调、负基调;基于情绪基调对单一通道识别结果进行修正,并以情绪基调为指导进行两通道情绪识别结果的融合。 本文主要工作如下: 1.基于音、视融合的情绪识别框架研究 分析现有的多通道融合框架,对各框架采用的融合方法进行分类和总结,进而提出一个基于情绪基调的两阶段音、视情绪识别融合框架,在语音、视觉通道上分别采用隐马尔科夫模型、随机森林算法作为基本识别模型,设定两种情绪基调:正基调、负基调;以情绪基调作为指导,修正单一通道识别结果;并在此基础上,提出基于相关系数的线性融合算法,对两通道情绪识别结果进行融合。 2.基于隐马尔科夫模型(HMM)的语音通道情绪识别 分析目前语音情感识别的发展历程、研究领域以及应用场景,介绍目前语音情感识别的主要研究方法。应用隐马尔科夫模型作为语音情绪识别的基本模型,对其分析过程和设计思想进行了深入详细地探讨。重点探讨在情绪基调指导下,改进基本HMM模型,采用分层识别的思想,对不同情绪基调的音频特征,采用相应的HMM模型分别进行识别。 3.基于随机森林(Random Forest)算法的人脸表情情绪识别 采用随机森林(Random Forest)作为视觉情绪识别的基本算法,详细探讨了其设计思想和识别过程。同时,详细阐述如何依据情绪基调值,对随机森林里叶子结点里的分类结果进行修正。