基于面貌的视线估计研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sii923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人眼的视线方向包含丰富的注意力信息以及潜在的大脑认知过程,视线估计就是研究如何估计人眼的视线方向和凝视目标,它可以广泛应用在临床研究,人机交互,教育等各个不同的领域。虽然已经有一些商业公司研发出视线估计的工程应用,然而大都非常依赖于特定的硬件设备,使用非常受限。在这种背景下,基于面貌的视线估计方法凭借简单的设备要求,快速的追踪速度越来越受到重视,深度学习在视线估计上的成功应用进一步促进了研究人员对其关注程度,一系列采用深度学习的基于面貌的视线估计算法随之出现,并取得了不错的效果,但距离真正应用的精度要求还有一定距离,如何提升基于面貌的视线估计性能成为该领域非常重要的研究课题,另一方面,深度学习的训练依赖于视线估计相关的数据集,目前仍然比较匮乏,且现有的数据集存在真值标注不够准确,头动姿势覆盖范围小,视点单一,采集过程中用户头动受限太多等问题也值得进一步改进。本文调研了目前主流的基于面貌视线估计方法的研究背景和发展趋势,针对目前存在的该领域视线数据集不足且标注精度不够的现状,我们提出了新的SJTUgaze数据集,通过采集16位受试者,每人4个视点下共32分钟的有效视频数据,处理得到127495张根据眼动仪记录的真值标注相应的视线方向向量和凝视点位置的人脸图像。相比现有数据集有以下特色:第一,SJTUgaze采用Tobii X120眼动仪实时记录受试者眼睛的3D位置和在屏幕上的凝视点,通过准确同步视频数据,提取对应帧的人脸图像,并根据设备标定信息将眼动仪记录的视线方向数据由眼动仪用户坐标系变换到相机坐标系下实现人脸图像的视线真值标注,实现更准确的视线方向向量真值标注,有效解决了现有数据集人工标注视线方向向量真值时精度不高的问题。第二,SJTUgaze覆盖的头动姿态和视线方向范围广,该数据集采用四个装置在电视屏幕上方、左方、右方、下方不同位置的Go Pro相机拍摄受试者在距屏幕140~175(88)观看刺激视频,以尽可能多地引入姿态角度变化,丰富数据集样本多样性。第三,基于四个视点的视频拍摄,SJTUgaze是多视点视线数据集,填补了目前多视点视线数据的空白,在SJTUgaze单个视点和联合四个视点的实验结果验证了其可以用于多视点联合视线估计的研究任务。此外,SJTUgaze采集数据过程中允许受试者头部自由运动,更加真实自然,而且数据中还包含注视,扫视两类眼动事件类别标注,可以在视线估计之外的相关研究如眼动分类发挥作用。由于每个人眼睛具有特异性特征,比如视轴与光轴夹角的差异,眼睛面貌差异等,这使得目前训练好的视线估计模型在新的受试者数据上表现很差,其中一个重要原因就是出现了个人特异性偏差问题。为了提升视线估计精度,本文结合元学习提出了新的视线估计模型,有助于提取更加通用且容易迁移的特征表示,使训练得到的模型在新的受试者数据上测试时,利用少于20个的新受试者校正样本提取其个人特异性特征,快速学习更新模型参数,以减小个人特异性偏差,得到更好的估计效果。我们与近期几个模型在主流公开的MPIIGaze,Eyediap和本文提出的SJTUgaze数据集上测试对比,本文所提模型得到的视线估计平均角度误差最小,在MPIIGaze上相比近期最好的结果提升6.6%。并在MPIIGaze和SJTUgaze两个数据集上做了跨数据集测试,验证了其泛化性能和小样本校正的优势。充分的对比实验和最终的实验结果验证了本文所提模型的有效性。
其他文献
万物互联是未来社会的趋势,其基础是蜂窝网技术与物联网技术的结合与应用。对于物联网节点,不仅要求其能够形成信息传输网络,而且还应具有对所连物体进行定位的功能。因此,本文把研究目标确定为:借助5G宽带信号,并将其与NB-Io T窄带信号融合,辅以其他合适的传感器,可以实现高精度定位,从而拓展物联网的应用。算法研究是本文工作的重点之一。论文研究了基于阵列天线的入射角估计(DOA)算法,重点研究了MUSI
近几年,无人机视觉检测的应用场景越来越广泛。随着应用的深入,对视觉检测图像质量要求越来越高。但是在曝光时间内无人机平台与检测目标之间存在相对运动,拍摄的图像因运动模糊导致质量下降而影响目标识别与测量精度。使用高精稳像设备能抑制高频振动的影响,但难以解决有气流扰动时出现的图像模糊问题。鉴于此,本文主要针对无人机路面检测研究视觉图像运动模糊复原方法。本文的主要工作如下:1)运动模糊的模型建立。本文首先
氧化锌纳米棒阵列宏观体在能源、环保、传感等领域应用前景广阔。大量实验研究表明,氧化锌纳米棒的表面形貌与单体结构对其理化性质有着显著影响,然而,由于其复杂性,目前尚缺乏批量化、自动化测量氧化锌纳米棒宏观体基本结构特征的高效方法,这极大阻碍了利用理论方法量化地处理实际问题。当前,表征氧化锌纳米材料表面形貌和基本结构特征的主要方法是扫描电镜二次电子成像,国内外图像处理技术在纳米结构电子像的应用中主要针对
气膜冷却孔是提升航空发动机效率、可靠性及耐高温性能的关键,气膜冷却效果受气膜孔轴向、孔径及空间分布等几何特征影响较大。但是,由于叶片的铸造偏差、电火花加工误差等因素,部分气膜孔几何特征存在不达标的情况。因此,如何在涡轮叶片的曲面上,对数量多、孔径小、轴线方向多变的气膜孔进行几何特征测量检测,成为了国产航空发动机制造的重点和难点。为此,本文围绕电火花加工涡轮叶片气膜冷却孔几何特征检测技术展开研究,研
数据压缩技术能够提升系统的I/O性能和存储空间的利用率,但是当应用在文件系统和应用层时,对于系统的修改十分复杂,不利于灵活部署。VDO(Virtual Data Optimizer)是一种块层数据压缩技术,作为Linux中的内核模块,在块层提供对上层系统的透明压缩,从而可以灵活地应用于各种场景。本文对VDO技术进行了调研,总结出其设计中存在的问题:(1)块层数据压缩需要使用拼装技术进行数据对齐,使
激光散斑成像技术是一种针对血管中血流的成像与特性分析的强有力的方法。对粗糙表面或含有散射物质的介质的激光散斑图案进行时空域的统计学分析,可以得到高精度的粗糙表面图像和介质相对流速分布等数据。将激光散斑技术运用于人体内细小血管的检测,具有重大的学术价值和临床实践意义。本文首先对空间与时域的激光散斑衬比度算法理论进行推导,建立了应用于细小血管的激光散斑图像提取程序,搭建了利用激光散斑技术进行细小血管血
得益于近年来技术的进步,具有自主建图与导航能力的无人系统在各个行业及领域中都得到了广泛的运用。但现有的建图导航技术依旧高度依赖机载的实时算力,这与当下实际应用中普遍的装备小型化要求相矛盾。此外,如今常见的几何结构的地图对环境的抽象表达能力十分欠缺,这导致了负载有限的轻量化无人系统平台仍难以实现较高层次的智能。针对这些问题,本文从拓扑形式组织全局地图的技术路线出发,设计了基于多假设法的拓扑地图鲁棒快
由于护照属于保密品,涉及很多防伪技术,运用了具有防伪功能的荧光线进行缝纫装订。经过缝纫装订后的护照成品,缝纫线线迹排列紧密,目前没有一种合适的护照缝纫线提取方法来检测护照装订质量。而本论文通过实验,结合已有的图像处理研究成果,分析与比较各处理方法的优势与客观应用条件,利用Matlab软件,运用空间域局部同态滤波、灰度拉伸、巴特沃兹滤波等技术,解决了图像处理过程中细节丢失现象,提取了边缘轮廓锐利并且
随着数字医学技术的不断发展,辅助手术导航系统已经得到了大量的临床应用。然而,国内现有手术导航系统定位方式以光学导航为主,应用场景单一,且光学导航存在光学遮挡问题,导致定位手术器械不可见,并降低手术连续性。另外,在临床手术中,医生还面临着高难度手术中强迫体位多、定位精度要求高与手术时间长等难题。针对以上临床难点,本文将电磁定位应用于动态导航中,研发了基于动态图像引导的电磁手术导航系统。本文的主要研究
随着办公信息化的快速发展,各种信息系统逐渐普及以提高企业经营活动的效率。工作流技术作为流程管理的中间件技术,在办公软件领域扮演着重要的角色。然而在现实业务流程快速变更的情况下,工作流产品预制的功能往往无法满足企业的需要,例如无法实现任务的动态跳跃、回退操作。针对这种不足,对工作流技术领域进行了调查后,以开源软件Activiti5作为基础进行改造,使该框架具有自由选择下一个审批任务的能力,以增加该框