论文部分内容阅读
情感识别研究是实现情感智能的关键方法之一,涉及到包括生理学、心理学、认知科学等在内的诸多领域,是一个多学科交叉的热点研究课题。由于单一模态(如语音、图像、文本等)的情感识别受到单一情感特征的限制,情感识别识别率有待提高。近年来,有学者提出基于多模态融合信息进行情感识别的方法,使得情感识别的准确率得到了较大提升。
本论文提出一种融合情感语音、面部表情和情感文本的情感识别方法,并采用基于特征层融合与决策层融合两种策略进行多模态融合。采用中国科学院自动化研究所建立的CHEAVD2.0数据集,包含生气、悲伤、高兴、焦虑、惊讶、厌恶、担心和中性等八种情感类型,共计5624个多模态对应文件。
本文的具体研究工作包括以下内容:
(1)语音情感识别研究。本文首先基于梅尔频率倒谱系数的音频词袋特征选取语音情感特征;然后,将原有的包含多帧数据特征的梅尔频率倒谱系数向量转换成维度固定的句子级别的特征向量;最后,以这些句级特征向量作为语音情感特征的数据来进行情感识别。
(2)人脸表情识别研究。本文首先对数据集中的视频文件进行分帧和人脸检测,得到面部表情数据;然后,设计一个六层的卷积神经网络进行表情分类;随后,为了进一步提高表情识别的准确率,采用对VGG16网络进行二次微调的方法进行实验;最后,对比两个模型的分类性能,选择其中识别准确率更高的模型,将其全连接层的输出作为人脸表情特征,用于特征层融合实验,预测结果用于决策层融合实验。
(3)文本情感识别研究。本文首先采用语音识别工具提取出所用数据集的语音文本内容;然后,对得到的文本数据去标点符号、分词、去停用词等预处理,获得词汇文本数据,同时,采用中文维基百科语料基于skip-gram模型训练出词向量模型,并用该词向量模型将预处理后的词汇文本数据映射为词向量;随后,采用常用的暴力平均法获得句子级别的特征向量,进行文本情感识别,最后,为了提高文本情感识别准确率,本文提出基于循环神经网络的文本情感识别方法,用动态循环神经网络学习句子中所有词汇的序列关系,得到句子级别的特征向量,用于文本情感识别。
(4)多模态情感识别研究。本文提出一种基于二次训练的决策层融合方法,基本思想是通过训练来拟合单模态决策结果与样本标签之间的映射关系。与特征层融合方法以及传统的六种决策层融合规则进行了对比实验。
实验结果表明,多模态情感识别的准确率高于单模态情感识别,而在两种融合策略中,本文所提出的基于二次训练的决策层融合方法获得了更高的识别准确率。
本论文提出一种融合情感语音、面部表情和情感文本的情感识别方法,并采用基于特征层融合与决策层融合两种策略进行多模态融合。采用中国科学院自动化研究所建立的CHEAVD2.0数据集,包含生气、悲伤、高兴、焦虑、惊讶、厌恶、担心和中性等八种情感类型,共计5624个多模态对应文件。
本文的具体研究工作包括以下内容:
(1)语音情感识别研究。本文首先基于梅尔频率倒谱系数的音频词袋特征选取语音情感特征;然后,将原有的包含多帧数据特征的梅尔频率倒谱系数向量转换成维度固定的句子级别的特征向量;最后,以这些句级特征向量作为语音情感特征的数据来进行情感识别。
(2)人脸表情识别研究。本文首先对数据集中的视频文件进行分帧和人脸检测,得到面部表情数据;然后,设计一个六层的卷积神经网络进行表情分类;随后,为了进一步提高表情识别的准确率,采用对VGG16网络进行二次微调的方法进行实验;最后,对比两个模型的分类性能,选择其中识别准确率更高的模型,将其全连接层的输出作为人脸表情特征,用于特征层融合实验,预测结果用于决策层融合实验。
(3)文本情感识别研究。本文首先采用语音识别工具提取出所用数据集的语音文本内容;然后,对得到的文本数据去标点符号、分词、去停用词等预处理,获得词汇文本数据,同时,采用中文维基百科语料基于skip-gram模型训练出词向量模型,并用该词向量模型将预处理后的词汇文本数据映射为词向量;随后,采用常用的暴力平均法获得句子级别的特征向量,进行文本情感识别,最后,为了提高文本情感识别准确率,本文提出基于循环神经网络的文本情感识别方法,用动态循环神经网络学习句子中所有词汇的序列关系,得到句子级别的特征向量,用于文本情感识别。
(4)多模态情感识别研究。本文提出一种基于二次训练的决策层融合方法,基本思想是通过训练来拟合单模态决策结果与样本标签之间的映射关系。与特征层融合方法以及传统的六种决策层融合规则进行了对比实验。
实验结果表明,多模态情感识别的准确率高于单模态情感识别,而在两种融合策略中,本文所提出的基于二次训练的决策层融合方法获得了更高的识别准确率。