论文部分内容阅读
世界卫生组织的数据表明,到2030年,抑郁症将成为最常见的精神疾病,将会给个人、家庭和社会带来严重的负担。然而,由于世界范围内医患比例严重失衡,很多患者可能无法得到及时的诊断。目前,对抑郁症的诊断主要以量表和问卷调查为主,但这些方法存在主观性大、隐藏性高、专家依赖性强、误诊率高等因素的影响。近年来的研究发现,抑郁状态影响患者的面部表情表达和言语声学表达。因此,面部表情和语音已成为抑郁症识别的核心行为指标。近年来,深度学习凭借其强大的特征表征和融合能力,在抑郁症识别领域取得了大量成果,但在基于人脸表情和语音的抑郁症识别中的困难与挑战依然存在。首先,由于伦理道德和隐私保护的要求,抑郁症患者的人脸和语音数据的采集非常困难,数据集规模严重不足,为深度学习方法的应用带来挑战。其次,在有限的数据样本上,如何提取能够充分描述抑郁患者特有的面部表情特征和语音特征需要进一步研究。最后,由于抑郁患者是一类特殊人群,数据质量很大程度上取决于被试的配合程度,被试不配合将会导致采集到的面部表情数据和语音数据在时间维度上很难保持一致,从而使得音视频多模态融合方法的效果不理想。针对以上问题,论文基于我们自己构建的包含语音数据、视频数据、深度视频数据和情绪状态数据的中国本土抑郁症数据集,开展了利用深度学习从面部表情和语音识别抑郁症的研究。在基于面部表情的抑郁症识别方面,论文首先提出了一种在小数据集上融合2D和3D不同数据源的视觉信息对抑郁患者的面部表情建模的方法;考虑到抑郁症患者的长时面部表情对抑郁症识别的影响,也提出了一种融合视觉注意力机制对长时面部表情建模的方法,来获得抑郁患者显著表情变化的全局时空特征表征。在基于语音的抑郁症识别方面,论文联合说话人个性特征和语音情感特征获得抑郁患者的语音特征表征,通过混合专家模型识别抑郁症。最后,为了进一步考虑面部表情和语音表达对抑郁症识别的综合影响,论文提出了一种基于自注意力的跨模态深度学习网络,以获取面部表情和语音的多模态联合表征来识别抑郁症。论文的主要工作与贡献如下:1.针对抑郁症识别的音视频数据集不足的问题,论文在自建的中国本土抑郁症数据集基础上,提出了一种基于两种不同深度信念网络(Deep Belief Network,DBN)模型的抑郁症识别方法。第一种DBN模型从光学摄像头采集的面部图像中提取2D静态的面部表情特征,第二种DBN从Kinect深度摄像头采集的3D面部点中提取3D动态的面部表情特征。通过两个网络的联合微调实现表情静态特征和动态特征的融合,以实现抑郁症的识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上的精度达到72.14%;结合2D和3D特征模型的识别性能优于单独使用2D和3D特征模型的识别性能;在积极和消极情绪刺激下,抑郁识别的精确率更高,且女性的精确率普遍高于男性。表明论文所提方法能够在小样本数据集上识别出具有潜在抑郁风险的抑郁症患者。2.针对抑郁患者认知偏差引发的面部表情迟滞现象,论文提出了一种通过融合视觉注意力机制对长时面部表情编码,以获得抑郁患者显著表情变化的特征进行抑郁症识别的方法。论文在3D卷积残差网络的基础上,利用全局平均池化特征和最大池化特征计算时间注意力、通道注意力和空间注意力,并沿着时间、通道和空间三个维度依此计算注意力图,得到时间-通道-空间组合的注意力,并将其选择性地嵌入到3D卷积残差网络。同时将卷积长短时记忆网络(Long Short-Term Memory,LSTM)变体插入3D卷积残差网络,以获取长时的、具有显著表情变化的全局时空特征。实验结果表明:论文提出的方法中国本土抑郁症数据集上的精度达到78.60%,在AVEC2014数据集上的平均绝对值误差(Mean Absolute Error,MAE)为5.68,优于其他方法。论文提出的时间-通道-空间注意力机制模块可以学习到识别抑郁症的重要特征。3.针对语音的个性特征和情感特征会对抑郁患者的言语表达造成不同程度的影响,论文提出了一种基于混合专家模型(Mixture-of-Experts,Mo E)的联合说话人个性特征和语音情感特征的抑郁症识别方法。首先,利用大规模说话人识别数据集预训练一个基于时延神经网络(Time Delay Neural Network,TDNN)的说话人个性特征提取器,同时利用大规模语音情感数据集预训练一个语音情感特征提取器。在此基础上,将提取的抑郁症患者的说话人个性特征和语音情感特征融合后,利用多源域自适应算法训练Mo E模型用来进行抑郁症识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上获得74.3%的精度;在AVEC2014数据集上的MAE值为6.32,优于现有的基于语音特征和深度模型的抑郁症识别方法;在语音问答和朗读任务中,论文提出方法的精度更高。论文提出的方法能够有效利用语音识别抑郁症。4.针对抑郁症患者在面部表情和语音表达抑郁情绪时,时间维度上很难保持一致的问题,论文提出了一种基于自注意力跨模态编码的抑郁症识别方法。借鉴自注意力编码器设计了引导注意力单元和自注意力单元来协同学习语音和面部表情的跨模态表示和单个模态的特有信息。论文搭建了5种共注意力模块,运用叠加和编解码两种级联方式构建了共注意力网络来实现抑郁症的识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上达到83.9%的精度,优于单独从面部表情或语音识别抑郁症的性能;在AVEC2014数据集上的MAE为5.38,优于现有最好的方法。实验结果进一步表明:1)共注意力网络中,利用语音模态或面部表情模态建模的自注意力单元能够突出单个模态的特征,而跨模态的互引导注意力单元能够学习到语音特征和面部表情特征之间的相互关系;2)最后学习到的自注意力特征要比之前学习到的更优,以更优的特征引导另一模态将会学习到更优的特征,因此编解码级联方式的共注意力网络识别性能优于堆叠级联方式的性能。