论文部分内容阅读
情感识别在人机交互中具有巨大应用价值,近年来受到越来越多的关注。在情感识别的研究过程中,研究者首先采集如面部表情序列、脑电(Electroencephalogram,EEG)以及语音等多种反映人类情感的信号,然后利用计算机进行自动识别。其中,EEG和面部表情序列是情感识别中研究较为广泛的两种信号。作为时变情感信号,EEG和面部表情序列具有相似的时空结构:它们不仅在某个时刻呈现特定的空间分布特性,也在时域上包含上下文信息。为实现准确可靠的情感识别,情感信号中所包含的较为关键的空域和时域相关性应该被很好地建模。出于上述动机,本文设计了多种具有时空结构的深度神经网络以实现基于EEG和面部表情的动态情感识别。此外,由于情感信号在空域上的相关性比时域上更加复杂,本文首先对如何建模空域相关性展开研究,并将它作为设计时空神经网络的基础。具体而言,本文主要的创新性成果包括以下几个方面:(1)提出一种受情感认知机制启发的双线性卷积网络(Bilinear Convolutional Network,BCN),对静态表情图像进行高层特征提取以及情感识别。为模拟情感认知的早期感知过程,本文首先对面部关键点的周围区域提取尺度不变特征变换(Scale Invariant Feature Transform,SIFT)描述子,并构建具有特定结构的特征矩阵。而为了模拟情感认知的深层感知阶段,本文构建BCN以学习具有较高判别性的情感特征。其中,BCN包含双线性映射层、一维卷积层和非线性激活层等多种网络层。在情感识别过程中,BCN能够很好地表征SIFT特征矩阵与其对应的高层语义信息之间的变换关系。同时,BCN对于不同视角下的面部表情也可以进行有效地分类。(2)提出一种新颖的时空递归神经网络(Spatial-Temporal Recurrent Neural Network,STRNN)用于学习情感信号中的空域和时域相关性,并将EEG和面部表情序列这两种信号的时空特征学习过程集成到统一的深度模型中。STRNN首先采用一个多方向的空域递归神经网络层(Spatial Recurrent Neural Network,SRNN)来捕获情感中的空域协同变化信息,特别是空域上各区域间的长距离上下文信息。在此过程中,SRNN沿着不同方向对情感信号中每个时间切片上的空间区域进行遍历。然后,双向时域递归神经网络(Temproal Recurrent Neural Network,TRNN)在SRNN输出特征的基础上进一步学习时域上的相关性。为选取对情感识别贡献较大的区域,该网络还对SRNN和TRNN的隐状态进行稀疏投影。经过上述过程,STRNN可以有效地学习情感信号中时域和空域上的相关信息,并实现情感识别。(3)提出基于一阶和高阶统计特征的深度神经网络框架,对EEG信号进行情感识别。其中,高阶统计特征为具有时空结构的对称正定(Symmetric Positive Definite,SPD)矩阵。理论上,SPD矩阵分布在黎曼流形上。为保持输入矩阵的黎曼流形结构,本文提出一个端到端的深度流形到流形变换网络(Deep Manifoldto-manifold Transforming Network,DMT-Net)将SPD矩阵从原始黎曼流形变换到另一个判别性更高的黎曼流形上。在此过程中,DMT-Net提出三个新颖的网络层以学习具有较高判别性的SPD特征,分别为:(a)局部SPD卷积层,(b)非线性SPD激活层,和(c)黎曼流形上的递归层。它们均可以保持输入特征的SPD特性并且在计算过程中无需使用运算复杂度较高的奇异值分解(Singular Value Decomposition,SVD)。而相比之下,现存方法几乎均基于SVD。此外,DMT-Net还包含一个对角化层用于对SPD特征进行高效的度量计算。最后,DMT-Net进一步和基于一阶统计特征的网络层进行融合以提高识别性能。(4)提出一种新的张量图卷积神经网络(Tensor Graph Convolutional Neural Network,TGCNN),对EEG信号进行情感识别。EEG特征首先被建模成包含多个节点的动态图序列。在此过程中,EEG的每一个时间切片均被视作动态图序列的一个子图,并且子图中的每个节点都与一个电极相对应。为全局地捕获各子图之间以及同一子图上的各节点之间的相关信息,TGCNN提出图保持层来递归地记忆各个子图上对于情感识别较为显著的节点。其中,图保持层包含两个关键的步骤,分别为跨图卷积和图池化。特别地,跨图卷积中提出一种新颖的参数化克罗内克和(Kronecker Sum)来表征两个子图中每对节点之间的邻接关系。通过利用克罗内克和的运算性质,原本针对高维矩阵的谱滤波运算可以分解为若干个低维矩阵之间的乘积,从而大幅减少内存和计算负担。经过对动态图的递归学习,图保持层可以捕获动态图序列的空域结构以及时域变化特性,并实现对EEG信号的有效情感识别。