论文部分内容阅读
典型的人机交互通过对人机界面的直接触控实现用户与机器间的信息传递。随着多媒体技术和人工智能的不断发展,非接触式人机交互给用户带来全新的感官和心理体验。作为非接触式人机交互的重要分支,视线交互以其重要的科研和应用价值逐渐获得人们的重视。所谓视线交互,即通过视线估计实现通过眼球运动进行触控操作的技术,因此,如何简便且准确地实现视线方向的估计至关重要。传统的视线估计方法通过获取瞳孔和角膜中心的位置来确定视线方向,这种方法通常需要高分辨率的相机、复杂的外接设备如红外光源、各种传感设备等,价格昂贵且使用不便。深度学习通过大量的图像训练神经网络,在人工智能时代得到了巨大的发展并逐步成为当前视线估计领域的研究热点。然而,目前常见的基于学习的视线估计方法大多采用回归的方法估计注视点的具体位置。由于跳跃式眼动的存在,精度低误差大,估计人眼注视的具体位置相当困难,无法满足触控操作的要求。此外,不同于传统的基于模型的估计方法,基于学习的视线估计需要海量的数据作为驱动,因此,建立合适的数据库对于相关研究至关重要。针对以上问题,考虑到触控操作的基本任务特点,本文提出的基于学习的视线估计方法将分类作为主要的研究方法,通过建立合适的屏幕分块结构来模拟触控按键,并且基于此设计建立了相应的人眼图像数据库,然后采用卷积神经网络(Convolutional Neural Network,CNN)实现人眼图像的特征提取,进一步实现了从图像到注视方向的映射过程。基于前面的介绍,本文在系统架构和实验方法等对现有方法进行一系列改进,主要的创新点主要体现在以下几个方面:(1)采用双眼图像作为训练数据。鉴于目前大部分基于学习的视线估计方法采用单眼图像(单纯左眼图像或者单纯右眼图像)作为输入,充分考虑到不同个体主视眼的差异以及双眼的相互位置关系对结果的影响,本文采用双眼图像作为输入。(2)估计视线区域来模拟触控操作。目前已知的大部分基于学习的方法采用回归来估计具体的视线点位置,但是由于眼睛运动存在抖动导致这种方法存在较大误差。而将图像量化到不同区域的方法将对点的估计放宽到对块的估计。本文根据计算机屏幕设置屏幕分块,从大小两个评价尺度对视线估计准确性进行探索。(3)采用分类的方法进行视线估计。在触控操作中,触发按键区域内的任意点均可触发相应的操作。假设不同注视方向对应不同位置的按键区域,这就意味着人眼图像和按键区域位置之间存在对应关系。任意落在相同注视区域内的人眼图像可以被分为同一类别触发相应的按键。同时考虑到卷积神经网络优越的分类性能,因此,本文采用分类的方法进行视线估计。