论文部分内容阅读
随着科技的进步和人们对人机交互中个性化交流需求的日益增多,情感识别作为影响交互质量的重要因素成为相关研究领域的热点之一,已经取得了一定的研究进展。在目前的研究中,情感识别通常被转化为机器学习问题进行解决。传统的机器学习方法多侧重于特征提取和分类器设计。相比于经典的有监督学习,基于特权信息的学习在训练阶段,除了样本特征和教师信号,还提供额外的信息,称为特权信息。特权信息,只在训练阶段存在,在测试阶段不存在。基于特权信息的学习的目标为借助特权信息建立更好的分类器。在情感识别问题中存在大量的特权信息,例如,在视频情感标注中,用户的脑电(Electroencephalogram:EEG)特征可以作为特权信息:在基于脑电信号的情感识别中,情感刺激视频和用户的个性化信息均可以作为特权信息;在多表情单元的识别中,各识别任务在特征空间中的关系可以作为特权信息。因此,本文提出基于特权信息的情感识别研究,具体如下:(1)提出了融合用户脑电信号和视频内容的情感视频标注方法。首先,从视频片段中提取若干听觉和视觉特征,同时从脑电信号的每个通道中提取五种频域特征。其次,使用统计分析的方法发掘情感标签与脑电和视频特征之间的关系。再次,构建三种贝叶斯网络,分别从特征层独立融合,决策层融合以及特征层相关融合三个层面,结合视频和脑电特征对视频进行情感标注。为了验证方法的有效性,本文设计并实施了心理生理学实验并采集了实验数据,包括诱发情感的视频片段、用户观看视频片段时的脑电响应以及用户在观看每个视频片段之后的自我情感评估。实验结果表明本文提出的融合方法较传统的仅使用单模态特征(视频或脑电特征)情感标注方法在愉悦度-唤醒度空间有更好的识别效果。此外,实验结果还表明在脑电特征有助于减小低层视频特征和高层用户情感标签之间的语义鸿沟。(2)以某一模态特征为特权信息的情感识别和视频情感标注方法。具体来说,既可以通过刺激视频来辅助从脑电脑电信号中识别观众的情感,也可以通过脑电信号辅助基于视频的情感标注。首先,从脑电信号中提取频域特征并从刺激视频中提取视听特征。其次,通过统计检验的方法进行特征选择。再次,通过典型相关分析(Canonical Correlation Analysis: CCA)同步构建一个新的脑电特征空间和视频特征空间。最后,采用支持向量机(Support Vector Machine:SVM)分别在脑电和视频特征空间中训练识别模型。在基于脑电的情感识别中,仅使用脑电信号作为识别的输入,并使用在脑电特征空间训练的SVM分类器;在视频的情感标注中,仅使用视频内容作为识别的输入,并使用在视频特征空间训练的SVM分类器。本文在三个标准数据库上进行了基于脑电信号的情感识别实验和视频情感标注。实验结果表明,视频内容作为上下文信息可以改善从脑电信号中识别情感的准确度;类似地,在训练过程中添加脑电信号同样可以增强视频情感标注的性能。(3)提出了采用被试和聚类归属作为特权信息的情感识别方法。首先,从脑电信号的每个通道中提取五种频域特征并通过统计检验的方法进行特征选择。其次,在训练阶段使用两种三节点贝叶斯网络(Bayesian networks:BN)来捕获情感标签、脑电特征以及被试或者聚类之间的联合概率分布方程。最终,在测试过程中,仅使用脑电特征按照特权信息——被试获聚类归属——进行边缘化处理,用以估计样本的情感标签。本文在三个标准数据库上进行了实验,包括MAHNOB-HCI, DEAP和USTC-ERVS.实验结果表明,这种引入被试和聚类归属的方法,比为每个被试训练单独的分类器,或在整个数据集上训练被试的无关的分类器有着更好的情感识别效果。(4)提出了使用相关的识别任务作为特权信息的多表情单元识别的方法,即通过在特征和目的标签层面联合构建面部动作单元间关系来进行多表情单元识别。首先,将多任务特征学习方法用在分组之后的动作单元识别任务,并在每个组内学习共享的特征。其次,使用贝叶斯网络,结合面部图像的目的标签对动作单元之间的共生和互斥关系进行建模。最后,使用训练好的贝叶斯网络对多任务学习的结果进行校正,同时通过概率推理实现了多面部动作单元的识别。在CK+(extended Cohn-Kanade)、 MMI和DISFA (Denver Intensity of Spontaneous Facial Actions)的结果验证了这种方法的有效性。