论文部分内容阅读
近几年来,虚拟现实(Virtual Reality,VR)技术在智能医疗领域的应用被广泛关注,尤其是抑郁症的诊疗。VR设备通过分析使用者观看刺激材料后的面部表情,获得场景与心理的对应关系,进行抑郁症的诊断,进而在虚拟环境中进行沉浸式引导治疗。传统的视觉表情识别方案无法对被VR设备遮挡的人脸图像进行表情识别,故现有VR设备大多采用肌电传感器采集面部肌肉运动产生的电信号分析表情类别。然而额外的传感器会给佩戴者带来不舒适的体验,并且传感器采样点有限,造成表情识别准确率不高。因此,针对VR智能医疗等对使用者表情信息需求度很高的场景,以及现有VR设备通过肌电信号分析表情类别的不足,本文提出了一种基于人脸复原的表情识别算法,将问题分解为VR情景遮挡人脸图像的复原和复原人脸图像的表情识别两个子问题,以准确识别被VR设备所遮挡的人脸面部表情。本文的研究工作概括如下:1.提出一种VR情景遮挡人脸图像数据集的生成方法,使用多任务级联卷积网络(MTCNN)对VGGFace2人脸数据集进行人脸检测、人脸对齐及裁剪,Dlib机器学习库检测68个人脸特征点并使用仿射变换模拟穿戴VR设备,构建11000组VR设备遮挡的人脸图像数据,其中10000组作为训练集,1000组作为测试集。2.借鉴图像翻译的思路,设计一种人脸复原神经网络模型,将遮挡人脸图像和参考人脸图像在通道维度连接在一起作为输入,使用ResNet-50提取人脸特征向量并引入身份(ID)损失。复原后的人脸图像效果逼真,平均峰值信噪比(PSNR)为23.20,平均结构相似性(SSIM)为0.79,同时人脸身份特征得到大幅度保留,使用FaceNet计算复原人脸与真实无遮挡人脸(groundtruth)的平均相似度距离为0.6873,复原人脸与参考人脸的平均相似度距离为0.8307。3.基于已有模型设计一种适合小数据集基于帧的表情识别神经网络模型,采用10折交叉验证在标准CK+数据集达到98.8%的识别率,在复原CK+数据集达到94.8%的识别率。采用标准数据集预训练,复原人脸数据集微调(fine-tuning)的方法,将复原后CK+数据集的表情识别率提高到97.8%。通过表情7分类的混淆矩阵,分析误识别原因,并验证了表情识别模型与人脸复原模型结合使用的有效性及应用前景。