论文部分内容阅读
视线方向指示了一个人看什么,对什么感兴趣。视线追踪常被用来对人类的意图进行分析,在计算机视觉、计算机图形学、心理学、社会学和人机交互等领域应用广泛。因此,本文针对视线追踪技术的研究不仅具有重要的理论价值,同时也具有广阔的应用前景。首先,本文设计了视线追踪系统的总体方案,并对方案中的人脸检测方法进行分析研究,选定基于多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks,MTCNN)的人脸检测方法,同时得到五个人脸特征点(左右瞳孔、鼻尖、左右嘴角),并对检测到的人脸进行尺度缩放操作。然后采用主动表观模型(Active Appearance Model,AAM)和比例正交投影迭代变换算法(Pose from Orthography and Scaling with Iterations,POSIT)算法相结合对头部姿态进行估计,在检测到的人脸上采用AAM算法进行特征点定位,接着使用POSIT算法根据人脸图像上的特征点和标准人脸模型对应的三维数据点的关系确定头部姿态,并根据获得的人眼角特征点来定位人眼区域,从而获得人眼的RGB图像和深度图像。其次,针对基于表观的视线追踪方法在头部自由运动时误差较高和视线追踪数据较少造成网络过拟合的问题。本文基于深度多模态融合的理论,利用迁移学习,结合预训练的卷积神经网络(Convolutional Neural Networks,CNN),设计了一种基于迁移学习的深度多模态融合视线追踪模型。即利用预训练的CNN模型提取眼睛的RGB图像和深度图像的特征图,并在CNN的全连接层自动融合头部姿态和两种特征图,从而进行视线追踪。通过实验表明,本文设计的视线追踪模型在允许头部自由运动的情况下相较于单一模态能更有效地估计人眼的视线方向,降低估计误差,同时迁移学习的引入能够在降低估计误差的同时加快模型训练速度。接着,由于CNN的感受野通常反映了其学习能力的大小,但受到卷积核大小的限制,同时采用池化操作增大感受野会造成特征图的空间信息缺失,因此考虑到膨胀卷积能够在增大感受野的同时而不造成信息损失,提出了一种基于膨胀卷积的深度多模态融合视线追踪模型。采用膨胀卷积对Res Net-50进行进一步改进,并通过实验证明,膨胀卷积的使用能够进一步提升模型的性能,将设计的视线追踪模型与基于CNN的视线追踪模型进行比较后显示了本文的视线追踪模型的优越性。为了便于使用视线追踪驱动服务机器人,在此基础上设计了基于分类的视线追踪模型对五个注视点进行预测,并在自建数据集上进行测试,实验证明基于分类的视线追踪模型能够有效地识别五个注视点。最后在智能服务机器人平台上搭建了基于分类的视线追踪系统的人机交互平台。实验结果表明,本文提出的视线追踪技术能够驱动服务机器人运动,具有一定的有效性和实用性。