论文部分内容阅读
表情识别就是给定一些表情图像或图像序列训练样本,通过这些样本去预测任意未知图像或图像序列的表情类别。按照研究对象的划分,表情识别可以分成基于静态表情和基于序列表情两种。基于静态表情的研究在过去几十年里得到了长足的发展,有着计算量小,特征提取简单方便等优点,在某些场合下也取得很好的识别效果,但静态表情忽略了表情具有动态属性这一事实,而且其特征提取虽然简单但容易受到外界环境和个体差异的干扰,鲁棒性不强。随着研究的进一步深入,越来越多的科研人员开始着手序列表情的研究,因为它抓住了表情有一个产生到消失的过程,所提取的序列表情特征不仅包含面部信息还附加了时间关联性,因此识别率能达到更高的水平,同时基于序列表情的研究也更符合实际。在本文中,围绕着CK+和Oulu-CASIA两种序列表情图像数据库展开研究,具体工作和主要内容如下:(1)给出序列表情识别包含的详细算法,包括人脸检测与定位、图像预处理、特征提取、识别分类。本文通过Viola-Jones人脸检测和基于Caffe的人脸检测定位和裁剪出人脸来。为了消除光照不均、图像尺寸不一等外界干扰因素对表情识别结果的影响,又用图像灰度化、直方图均衡化等预处理技术对序列图片进行了处理。(2)提出了一种基于特征点追踪和变状态条件随机场的人脸表情识别方法,在CK+数据库上取得了很好的效果。特征点追踪部分用了主动外观模型,针对传统主动外观模型回归拟合算法拟合速度过慢造成实时性差的问题,提出了一种线性回归并行增量级联拟合策略,在LFPW数据库上测试结果表明,提出的拟合算法较线性回归算法在精度和速度上均有提升。然后用变潜在条件随机场做特征分类,潜在条件随机场虽然用潜在状态能很好的编码人脸表情或AU这样的面部动态特征,但存在潜在状态模式固定的问题,比如检测表情序列各个部分某AU处于激活与否,使用有序潜在状态能更好地描述包含该AU激活的段,但无序潜在状态能更好地描述未出现该AU的段,而潜在条件随机场把所有潜在状态都固定为有序或无序,针对此,提出了 一种变状态条件随机场模型,其能够根据输入数据自动选择最佳的潜在状态,用CK+数据库327个图像序列进行测试,结果在已标定特征点位置的CK+数据库上的识别率达到95.8%,在未标定特征点位置的CK+数据库上的识别率达到95.0%,并与其它特征提取方法和分类方法相对比,结果证明了本章算法的有效性。(3)深度学习时期将表情识别的两个核心的步骤:表情的特征提取和分类合并,提出深度学习模型,该模型能自动地学习表情相关的特征并分类,取得了显著的识别效果。本文提出了一种卷积神经网络和循环神经网络的融合模型。该网络模型主要包含两个部分:空间特征提取网络,时序信息提取网络。对于给定一个表情图像序列,空间特征提取网络从序列每幅图像中提取表情的空间特征。然后用长短期记忆网络处理、统计序列的时序信息,主要是获取特征在序列中时间上下文信息,最后对这些整合了时序信息的特征分类。为了使提出的深度学习模型得到充分的训练,用角度变换的方式将数据库扩充14倍,最后在扩充后的CK+、Oulu-CASIA数据库上进性测试并和一些算法对比。测试结果表明,融合的网络模型可以有效地提取表情的空间特征和时序信息,在CK+数据库上达到了 96.4%的准确率,较上一章提出的条件随机场的前深度学习算法有提升,也比一些算法比如TMS(96.1%)、3D-CNN(92.39%)更有效,并在Oulu-CASIA数据库上也达到了 91.5%的准确率,证明了算法的有效性。