论文部分内容阅读
随着人们生活水平的提高和个性化人机交互技术的发展,情感人机交互技术的研究越来越受到学术界和产业界的普遍关注,在此背景下,MIT媒体实验室的Rosalind Picard教授于1995年提出了情感计算(Affective Computing),经过近20年的发展,情感计算已在医疗护理、智能机器人、远程教育、交通安全、电子商务和安防等领域取得了广泛的应用。虽然情感计算有着广泛的应用前景,但由于其涉及认知心理学、计算机科学和神经科学等多个领域,目前仍存在着很多待决的问题。由于情感的模糊性和不确定性,传统的机器学习算法往往很难处理情感不确定性推理。然而,概率理论却对具有模糊性和不确定性情感的建模提供了理论基础。尽管关于概率理论的研究可以追溯至17世纪,但随着近年来概率图模型(Probabilistic Graphical Model, PGM)理论的发展,人们才将其有效地应用于涉及多个相互关联变量的问题解决中,其中这些模型包括贝叶斯网络模型(Bayesian Network, BN)、隐马尔科夫模型(Hidden Markov Model,HMM)等。因此,PGM便为情感模型的设计与分析提供了重要的研究方法。基于此,本文将围绕情感计算模型中的若干关键问题以及PGM在这些关键问题中的应用开展一系列的研究,本文的主要研究内容如下:首先,为了实现基于多模态数据对自发表情和人为表情的研究,设计和搭建了一个大规模的红外可见多模态自发/人为表情数据库一USTC-NVIE。该数据库共包含了100多名被试在三种不同光照下六种自发表情和人为表情的可见图像及红外温度数据。在该数据库的基础上,本文还从不同角度对自发表情诱发视频的有效性、所标注的外在表情和内在情绪之间的相互关系、红外热图在自发情感推理以及自发人为表情识别中的有效性等进行了一系列的验证分析。然后,提出基于面部红外热图与概率图模型的自发情感识别与自发人为表情识别方法。红外热图在情感识别中的有效性已经得到相关研究的证明,但这些研究多是针对单帧表情图像的温度数据而展开,从而丢失了不同表情下温度在时序上的变化信息,基于此,本文通过HMM作为分类器,对不同面部子区域内的温度时序信息进行建模进行自发表情的识别,并分析了不同面部子区域温度信息在自发情感识别中的重要性。此外,本文还通过统计方法对不同面部子区域温度信息在自发人为表情区分中的有效性进行了分析,并首次提出了基于红外热图和BN的自发人为表情区分方法。其次,提出基于概率图模型和观众面部表情的视频情感隐性标注方法。在传统的视频情感隐性标注研究中,研究者多直接基于观众的表情特征进行视频情感推理或者直接将所观众的面部表情视为最终的视频情感标签,从而忽视了观众外在表情、内在情感及视频情感之间的相互关系。基于此,本文首先通过BN对观众外在表情、内在情绪和视频情感标签进行建模,实现了视频情感的隐性标注,实验结果表明该方法要优于传统的视频情感隐性标注方法。此外,由于人们在某一时刻的多种情感状态之间还存在着一定的共生和互斥关系,因此,单一类别的情感标注存在着一定的不合理性。基于此,本文又通过BN对观众不同表情之间的关系以及多表情和多情感之间的关系进行建模,提出了一种基于观众表情的视频多情感隐性标注方法。最后,提出基于概率图模型和不完整标注数据的面部运动单元(Action Unit, AU)标注方法。同简单的基于类别的表情标注方法相比,基于AU的标注方法对表情产生、变化的描述更为细致,但AU本身的模糊性和标注方法的专业性与复杂性却导致了AU标注数据的不完整性。同表情类别一样,不同的AU之间也存在着一定的共生和互斥关系。基于此,本文通过期望最大化(Expectation-maximization, EM)算法和BN模型,对不完整标注数据下AU关系进行建模,并借助表情类别作为隐性知识,提出了一种基于不完整数据和隐性知识的AU自动标注方法。