论文部分内容阅读
人脸表情识别(FER)一直是模式识别与人工智能领域的研究热点,在人机交互、视频监控、安全驾驶、临床医学等众多领域具有广阔的应用前景,如何高效准确地识别出人脸表情具有重要意义。目前,FER的方法主要是从二维人脸图像中提取特征,分析局部人脸纹理和轮廓的特征来识别人脸表情。鉴于面部表情的复杂性和微妙性,仅仅使用从2D面部图像提取的2D特征来精确地区分面部表情是困难的,并且在处理非数据库图像或面部姿势和环境光线改变时识别效果急剧下降。因此,本文提出了一种基于Kinect传感器的2D像素特征(2D-PF)和3D特征点特征(3D-FPF)结合的方法来实现鲁棒的实时FER,解决上述问题。 传统面部表情识别方法容易受到多种因素的影响导致识别效果不佳,本文利用多种有效的人脸采集、特征提取等策略方法减小无关因素的影响,提高表情识别效果。首先利用外接眉毛、嘴巴区域的矩形方法来分割人脸,减小背景部分和与表情变化无关的面部区域的干扰,使用经典的LBP,Gabor和HOG算子从分割后的人脸图像中提取2D-PF,对提取LBP,HOG和Gabor特征的过程进行适当的调整优化以降低计算量,并且对特征向量也进行降维处理以保证算法的实时性。由于2D-PF难以描述面部表情特征的细微变化,并且对于各种外界因素较为敏感,提出了角度,距离和法向量三种三维特征来详细描述人脸形变,通过对眉毛、嘴巴等主要反映表情变化区域的特征变化深入分析后,人脸特征点之间连线的角度、距离以及区域平面法向量三种具有代表性的3D特征被选择为描述表情的特征向量。因为眉毛和嘴巴区域特征点较少,而且Kinect获取到的数据精度较低,最终将2D-PF和3D-FPF进行集成以完成识别任务,从而确保表情识别的准确性和实时性能之间的平衡。 通过对2D-PF和3D-FPF进行结合提高了算法对表情特征描述能力,能够减少不同表情之间的干扰,而且利用随机森林分类器加权平均的方法用于表情分类提高了算法的鲁棒性,在3D表情数据集Face3D上验证了本文方法对于9种基本人脸表情的识别效果,平均识别率达到了84.7%,而且对于混淆性较强的愤怒、悲伤、害怕等表情识别率均高于80%,实时性也达到了10~15帧/s。实验结果表明了本文提出的算法相比普通的2D特征、3D特征对于表情的识别不仅具有一定的优越性,同时还能保证算法的实时性。