基于变分推理的视线估计研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:missyouwqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的日益发展,3D视线估计在各种应用中的潜在用途引起了越来越多的研究关注。在心理学方面,可以通过估计视线的方向来推断出人们感兴趣的事物,从而去探究他们的心理活动。在人机交互方面,视线估计技术能够让手脚不方便移动的患者也能像常人一样操控机器来辅助他们的日常生活。在汽车的辅助驾驶方面,通过车载系统中安装的摄像头可以获取驾驶员眼部信息,来判别驾驶员是否在专心开车以及是否疲劳驾驶,防止交通事故的发生。目前,视线估计研究实现了较大的发展,但是面对从2D眼睛图像估计3D视线方向会产生很大的不确定性,这对现有的方法产生了巨大的挑战。近年来,卷积神经网络(CNN)发展迅速,并成为计算机视觉研究领域的热点话题,通过对图像特征的提取以及在各种任务下的泛化能力,CNN被广泛应用在图像视觉任务上。同样,CNN也被用于在复杂的外界环境下对视线进行准确估计这个关键问题上。然而,目前的视线估计网络往往采用多列或者多尺度的神经网络结构设计,通常会出现网络难以训练以及梯度消失或者爆炸等问题,并且部分数据集中视线图像的低分辨率、部分遮挡或光线暗淡等一系列不确定性的问题也严重制约了CNN的性能,对于视线估计的准确度带来了很大的挑战。为了应对这一系列的挑战,本文在基于变分推理的框架下设计了一种视线估计网络(CGE)。传统CNN网络训练方法是将输入的眼睛图像表示为x并考虑对视线估计值g进行回归,常规的视线估计的过程可能很复杂。因此,与传统CNN网络对视线估计任务进行端到端训练不同的是,我们将整个训练环节f分为两步。我们的方法是假设有可能学习眼睛的中间图像表示m,也就是说,我们将模型分为两部分:j和k。网络学习j和k的复杂度应明显低于直接学习f的复杂度,从而我们就可以选用一些复杂度明显较低的神经网络体系结构以更高或等效的性能应用于视线估计的同一任务。在过程j中,我们应用了变分推理的方法,其目的是为了生成视线表示图(gazemaps)。在训练阶段,后验网络中的编码器获取眼睛图像和对应的gazemaps的地面真实值作为输入,并将其转化为一个具有很多高斯分布变量的潜在空间。随后在潜在空间中对多个随机变量进行采样,并由解码器重构为相应的gazemaps,此过程也可作为整个网络的中间监督。在过程k中,我们将对上一过程j生成的gazemaps输入回归网络中对视线方向进行估计。我们的回归网络是基于Dense Net的网络结构,为了验证该网络的有效性,我们也在其它一些经典网络框架上进行了有效性分析的对比实验。最后,我们在三个基准数据集(MPIIGaze、EYEDIAP和Columbia)上对我们的模型进行了评估,实验表明CGE能够准确的对3D视线方向进行估计。
其他文献
微电网中可再生能源出力存在着较强的随机性和波动性,伴随着大规模电动汽车(EVs)接入所带来的随机负荷,导致需求侧也出现较大随机性。供需两侧的随机性会对微电网的稳定运行产生影响,制定提高微电网稳定性、降低运行成本的调度策略是非常有必要的。含EV微电网结构复杂,模型难以准确建立,传统优化算法求解时容易陷入局部最优解。本文结合量子计算并行能力对长短期记忆神经网络(LSTM)进行改进,建立量子长短期记忆神
学位
在安防领域,摄像头具有不可替代的作用,但是传统的安防监控系统需要投入大量的人力去对监控内容进行监督与分析进而发现异常情况。而本论文研究的人群异常行为检测算法旨在利用计算机技术代替人力以实现自动地对监控视频里面的人群异常行为进行检测和预警。传统的人群异常行为检测算法大多基于手工特征,由于人群异常行为本身具有非线性和不确定性,这些传统的方法存在鲁棒性差,泛化性弱等缺点。而基于深度学习的网络模型具有强大
学位
遥操作控制能够将人类智慧加入到机器人的控制中,将人类的操作空间延伸到危险环境或人类无法到达的地方。在主从遥操作控制中,在面对操作精度要求较高且轨迹可以预先确定的作业任务时,如焊接、切割动作,操作者需要缓慢进行移动,操作效率较低且难以精准完成。这时可以利用机器人自主控制,充分发挥其精准完成任务的优势,在遥操作控制不便于实现的环节采用自主控制,使机器人在部分时间内自主完成关键任务。本文主要研究内容如下
学位
随着新兴智能化产业技术的蓬勃发展,在人们生产生活中越来越多的工作任务被赋予到机器人身上,而如何在复杂未知环境空间控制机器人实现精细化自适应抓取成为一项极富挑战性的研究任务。因此,本文结合了对机器人的轨迹优化控制,通过融合视觉和触觉的多模态组合方式对目标物体进行了精细化抓取操作的研究,最后在软件中进行了仿真建模,并在实验室中搭建了多模态抓取系统用于对本文所提出的抓取策略加以验证。本文的主要研究工作如
学位
由于遥操作系统存在着通信时延,当通信时延变化时,对遥操作的稳定性会产生极大的影响。因此,本文在从端设计了加幂积分型有限时间控制算法实现主从轨迹的快速跟踪,在主从端设计了切换滤波器来解决变时延情况下遥操作系统的稳定性。论文的主要内容如下:首先,基于指数乘积法构建了机器人的运动学模型,基于拉格朗日法构建了机器人的动力学模型。然后根据机器人的动力学模型建立了遥操作系统的数学模型。其次,考虑到主从端机器人
学位
随着全球环境问题加重,温室气体效应在世界范围内成为了越来越关注的话题。大气中水汽作为温室气体的主要组成部分,对于全球气候的影响有着非常重要的作用。将GNSS技术应用于大气水汽含量监测作为一种新兴的水汽监测手段,具有成本低、时间分辨率高等优点,拥有广阔的应用前景。本文结合以往学者的经验和方法,对GNSS技术探测水汽过程中关键参量的模型精度进行分析。在分析模型精度的基础上,对对流层延迟以及加权平均温度
学位
本文研究的面向项目需求的专家推荐算法能够快速、精准提供专家推荐策略,具有重要的实践意义。面向项目需求的专家推荐的主要依据是专家科研成果与项目的匹配度,专家的科研成果主要包括学术论文和攻关项目、专利、课题基金等非学术论文成果两大类。专家学术论文数据主要为长文本数据,与学术论文相比,非学术论文成果的文本具有词汇少、语义稀疏等特征,属于短文本数据。针对专家学术论文主题动态变化以及非学术论文成果主题语义稀
学位
国产卡片式远程I/O模块由于技术上的差距和生产工艺的不足,造成其功能不全、用户接受度差、市场占有率非常低且难以与国外高精度大型设备配套使用等问题,从而使得国外卡脖子设备(比如真空镀膜机)难以国产化。通过分析国内远程I/O模块产品在真空镀膜机上配套使用的局限性,本文设计实现一种基于Device Net的卡片式远程I/O模块,以期解决真空镀膜机中的I/O模块国产化问题,使得真空镀膜机设备整机的国产化水
学位
支气管内膜结核(endobronchial tuberculosis,EBTB)是肺结核的特殊类型,是指发生在气管、支气管粘膜和粘膜下层的结核病。由于无特异性临床症状,EBTB早期漏诊误诊的情况屡见不鲜,严重症状患者甚至需要进行肺叶切除手术才能治愈,可见早期治疗对于EBTB患者的重要性。随着智能医疗的发展,基于卷积神经网络(Convolutional Neural Network,CNN)的医学智
学位
基于视觉的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM),是自主移动机器人的核心功能之一。目前大多数视觉SLAM系统均基于静态环境设计,忽略外部动态物体对系统的影响,导致系统存在较大定位误差而无法正常运行。鉴于此,本文以ORB-SLAM2为基础,提出了一种室内动态环境SLAM算法。主要工作如下:(1)针对四叉树ORB特征提取过于均匀而导致
学位