论文部分内容阅读
头部姿态估计是指利用计算机视觉和模式识别技术来推断数字图像中人体头部朝向的过程,它需要一系列处理步骤将基于像素的头部表示转换为方向的高级概念。其作为注意力方向和人体头部行为分析的主要研究内容,在计算机视觉领域有着广泛的应用前景。例如在一些辅助驾驶系统中需要估计驾驶员头部姿态来判断驾驶员是否存在危险驾驶行为;或是在一些线上教学系统中通过同样的方式来判断学员的学习状态;以及在人脸矫正中起到重要的作用。目前关于头部姿态的研究越来越多地偏向使用深度学习的方法,也取得了一定成效。但是仍然存在一些影响头部姿态估计准确性的问题,如(1)使用欧拉角表示头部姿态的方法使得标签不唯一;(2)图像易受光照、遮挡等因素影响,导致模型泛化性能差;(3)由于角度的变化在人脸成像上不明显,导致特征难细化。除此之外,我们也面临着数据标注和提升模型性能的挑战。针对以上问题,本文提出了基于人脸朝向向量的姿态表示方法解决因欧拉角奇异性导致数据标签不唯一的问题;并运用软标签来解决角度特征难细化的问题,使得模型在训练有序连续性回归问题中更稳定且易优化;同时开发了基于Unity3D的标注工具用于数据标注;最后搭建了实时的人脸检测和头部姿态估计仿真系统。以上方案在模拟驾驶环境中得到了初步验证。本文研究工作主要体现在以下几个方面:(1)为了解决欧拉角存在的奇异问题,本文提出了基于人脸朝向的标签表示方法,通过研究分析三维空间中物体的旋转理论,将欧拉角转换为旋转矩阵进而求得朝向向量。这有效地避免了欧拉角在大角度情况下存在的标签不唯一的情况。(2)为了提升向量坐标值预测的精准性,本文提出了基于软标签的分类方法解决有序性回归问题。人脸在角度上的有序的连续的变化可以直接体现在图像上的连续性变化,本文先对有序性的坐标变化进行粗粒度的类别分组,再通过度量类间的距离来生成样本的软标签。实验结果表明,提出的软标签可以使得模型在学习过程中发现隐藏的类间关系,更利于模型训练。(3)在提升模型的泛化能力方面,本文提出并开发了基于Unity3D的头部姿态标注工具,通过Unity3D操控3D头部模型使其和二维图像中的人像头部姿态保持一致的方法来记录旋转的四元组数。利用标注工具标注了非公开红外数据,并通过翻转、随机采样、模糊处理、灰度处理等方式进行数据增强,使得模型训练数据多样性大大增加,从数据层面提升了模型的泛化性能。(4)在提升模型性能方面,本文对模型进行了多个不同的基础网络的改进和实验。通过对模型精确度、模型文件大小、浮点计算量、每秒处理图像帧数进行对比,得到最适合终端设备集成的网络结构。(5)搭建完善的头部姿态估计仿真系统,对于实时的头部姿态估计任务,需要快速地检测出人脸所在位置。因此,本文对SSD检测网络进行了优化和压缩并搭建了轻量级的人脸检测网络。在人脸检测网络和本文提出的头部姿态估计网络基础上,设计了实时的头部姿态估计仿真系统。除上述主要研究内容外,本文还进行了大量对比实验。实验结果表明,基于人脸朝向向量的算法模型能够有效地估计出二维图像中人体头部的姿态,避免了因欧拉角奇异导致的大角度下误差大的问题。其次,本文提出的软标签将类间关系直接用类与类之间的距离联系起来,使得模型在训练过程中较独热标签更易优化。最后,通过对多个模型的实验对比,给出了最适合终端实时估计头部姿态的模型和精准率最高的模型。