论文部分内容阅读
随着人工智能技术的发展,人们对于其人机交互设计也提出了更高的要求,人们渴望获得更加“拟人化”的人工智能助手,希望其能够正确的认知用户的情感并做出积极且准确的反馈。人脸表情识别便是实现这一目标的关键环节之一。针对实际应用环境的人脸表情识别是当下研究的难点所在,其主要原因在于人脸图像获取过程中受到光照、姿态、遮挡物等情况影响,导致传统方法进行特征设计检测和识别精度难以提升。随着大数据带来的海量数据支持以及深度学习理论的日趋成熟,特别是卷积神经网络在模式识别领域的应用,为人脸表情检测和识别提供了新的思路和方法。本文以实现自然场景下的人脸检测及表情识别为目标,采用目前机器视觉领域常用的卷积神经网络,实现了复杂自然场景下的人脸目标检测算法和人脸表情分类算法。本文主要工作包括以下两个部分:1.实现了基于深度学习目标检测技术的自然场景下人脸检测。研究对比了目前深度学习领域较为前沿的Faster-RCNN、YOLO、SSD三种目标检测网络,采用Wider Face数据库16106幅样本进行人脸目标检测训练,并将SFEW数据库1000幅样本作为测试集。实验结果显示,Faster-RCNN和SSD在测试集上均取得了 100%的检测精度,YOLO检测速度更快但是检测精度稍差,为此,本文采用Faster-RCNN实现对人脸表情区域的分割。2.实现了基于卷积神经网络的自然场景下人脸表情识别。本文从以下几个方面实现人脸表情识别网络模型的训练及优化:首先,对比了目前常用的4种经典卷积神经网络结构,针对训练样本数量不足导致的模型过拟合问题,采用了数据增强扩展训练数据量并通过迁移学习的方式进行训练策略优化,实验结果显示VGGNet-16模型识别效果最好;然后,分析了不同样本类别的识别率不均衡问题及其产生的原因,采用了一种加权的损失函数对网络进行优化,实验结果显示模型的整体识别率稍有下降,但各类别间识别率不均衡问题有所改善;之后,采用了网络剪枝的方式压缩网络模型,通过提升了网络稀疏性抑制过拟合,再训练后模型识别率进一步提升;最后,采用了 3种VGGNet网络模型集成的方式,进一步提升了对人脸表情目标的识别率。本文针对实验采用的SFEW数据库,分别从单个网络模型和多网络集成的方面提高了人脸表情的识别率。实验结果表明了论文工作的有效性。