面向虚拟实验的实时三维手部姿态估计

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lambkin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维手部姿态估计指的是从图像数据、深度数据、动捕数据或其他传感器数据中获取信息,并使用计算机图形学、计算机视觉、神经网络等算法来还原人体手部关键点位置关系,从而重建包括手部位置、骨架约束等在内的手部三维姿态信息。三维手部姿态估计技术可以应用于多种领域,例如影视动漫、远程操控、虚拟会议等。另一方面,随着虚拟现实的发展,越来越多的学者意识到虚拟现实技术在教育领域上的优势。近年来,虚拟现实在教学实验上的案例逐渐增多,其中就有不少虚拟实验的应用,以帮助学生加深对实验操作的记忆与理解。然而,目前的虚拟实验仍使用传统鼠标或是手柄进行操作,而非使用自然的交互手段(例如使用双手直接交互)进行操作。这样的虚拟实验本质上只能让学生体验实验流程,而不能培养学生的实验操作能力与实验操作规范意识。为了改进这一点,更好的虚实融合技术需要被应用于虚拟实验中。特别的,对于大多数实验来说,手部交互是最为重要的,因而需要将三维手部姿态估计技术应用于虚拟实验中。然而在实验场景中,除了需要考虑追踪精度与实时性,还需要考虑平价性、易扩展性以及对用户较少的操作干扰。现有的商用三维手部姿态估计技术往往依赖大量昂贵的外部设备,并需要使用者绑定手部标记点或佩戴手套;现有的实验室三维手部姿态估计技术往往不注重实时性,或是需要使用高性能的显卡设备以保证实时性,不满足平价性与易扩展性的需求。针对以上特殊需求,本文设计并提出了一套手部三维姿态估计系统。该系统不会在用户手上引入额外辅助设备,仅通过一台常用的RGB彩色相机来实时地捕捉手部图像信息,并还原至手部三维姿态。具体来说包含如下三部分的研究成果:第一,基于卷积神经网络设计一套手部包围盒提取模型,可以从单帧RGB图像中提取手部包围盒的位置与大小。该模型将深层顺序模型与多尺度模型相结合,并引入锚点加强训练效果,从而可以在较广范围内,对不同大小的手部区域进行追踪。第二,基于卷积神经网络设计一套手部二维关键点提取模型,可以从手部包围盒内提取手部的二维关键点热度图。该模型基于卷积姿态机的架构特点,使用卷积层拆分与知识蒸馏技术,来分别从模型层面与训练层面提升最终模型的表达能力。第三,设计一套手部三维姿态解算模块,该模块利用二维关键点的坐标信息,结合手部位置与生理约束,解算其三维手部姿态。该模块基于高斯分布性质对二维关键点坐标进行误差修正,随后使用距离关系与角度关系,离散穷举地对手部关键点三维坐标进行初步解算,并最终通过手部模型约束进行位移修正。最终系统各模块相比传统方法均获得性能与识别效果提升。其中包围盒提取模块相比传统顺序网络模型预测精度提升约4.23个百分点,且更擅长处理多尺度的输入图片;二维关键点提取模块相比传统卷积姿态机预测精度提升约3.33个百分点,性能提升约9.638ms;总系统每帧处理时间约37.814ms,达到24帧每秒的性能需求,并能较好地处理虚拟实验常见手部姿态(例如抓握、捏取等)、遮挡与自遮挡情况、以及处理远距离定位问题。
其他文献
对于图像去噪问题的研究长期以来都在计算机视觉领域中占据十分重要的地位,这是因为基础图像的质量将在很大程度上制约后续图像信息处理的效果。图像噪声的类型多种多样,而高斯噪声的特性使其成为图像去噪算法研究中最为核心的一种,本文的研究重点也正是图像的高斯去噪问题。过去传统的图像高斯去噪方法建立在图像先验知识模型的基础上,这依赖人的经验,可能导致在建模的过程中难以利用到图像的一些高级特征,存在一定的局限性。
随着VR技术的发展,VR游戏逐渐盛行,线下出现了一批VR体验店、VR自助机,同时也有越来越多的VR游戏爱好者,入手VR设备开启VR游戏。游戏发展到一定阶段也往往伴随着游戏平台客户端的产生,但是当前VR游戏市场不健全,玩家挑选游戏耗时费力,VR游戏运行需要安装各类插件,入手难度高;以及账号过多难以管理,游戏的下载、安装更新比较繁琐,这时一款合适的VR游戏平台客户端显得尤为重要。国内VR游戏客户端如造
近年来,目标检测在智能安防、智慧城市、智能工厂、智能汽车等多个领域应用广泛。由于目标检测的核心技术是深度学习,所以目前大多数的目标检测模型部署在服务器端,但这种方式存在两个弊端:一是随着部署的需求量骤增,大量配置高性能服务器在经济上会造成巨大压力;二是摄像机等边缘设备采集的待检测数据需要经过网络传输才能到达服务器,当数据量非常庞大时会影响到检测的时效性。随着边缘设备的日渐流行,其小体积、高性价比、
自人工智能技术发展以来,各领域都在寻找有利的结合点,最近几年,人工智能技术也不断涌现出与医疗领域结合的趋势,同时大量的数据资源、快速的计算能力、算法的不断优化等基础准备的成熟与创新也成为发展医学领域智能化技术的重要基石。在这种趋势下,我国医疗智能化的发展面临着前所未有的机遇和挑战,图像和语音技术的成熟为医疗行业带来新的机遇,但是由于语言的复杂性使得自然语言处理在医疗领域的应用仍然面临着诸多挑战。例
行人再识别是智能监控研究的重点之一,它是利用计算机视觉相关技术,判断不同摄像头间非重叠区域是否存在同个行人,进而可实现可疑人物的快速检索、预测异常事件等相关分析。然而在实际应用场景中,由于存在光照变化、背景杂乱、行人姿态多样以及遮挡等问题,行人再识别研究存在诸多挑战,引起学术界和工业界广泛关注。如何提取更鲁棒且可区分度高的行人特征以提高行人的识别效果,成为该课题的研究核心之一。利用手工设计得到的特
随着物联网的发展,边缘计算已成为时下的研究热点之一。边缘计算是在靠近用户或数据源头的网络边缘,包含了网络传输、计算任务、数据存储存储和应用等功能的平台,其核心在于将部分计算、网络或存储任务从云计算中心转移到边缘设备上。相比云计算,边缘计算具有更实时、更快速的数据处理能力和响应能力,部署成本更低,对网络带宽的压力也更小。但是,传统的边缘计算框架也有其潜在的问题。由于边缘节点承担了一部分计算任务,云平
资源描述框架(RDF)作为表示和记载图结构数据的技术规范之一,被广泛应用于知识图谱、社交网络、金融风控等场景。用户使用RDF图查询系统进行信息检索,发掘图数据集中特定的信息。随着人类进入大数据时代,实际场景中的图数据集正变得日益庞大。海量数据给RDF图查询系统带来了存储效率上的挑战:如何在保障系统性能的前提下提升系统的存储效率,用更少的空间存储更多的RDF图数据,降低系统运行的硬件成本,成为学界和
资源描述框架(RDF)是W3C组织制定的一个标准数据模型,用来表示万维网上的关联数据。RDF将相互关联的数据描述成一系列的三元组,这些三元组构成一个高度连通的图(RDF图)。用户可以通过SPARQL查询语言检索RDF数据。在线图查询是访问关联数据的重要方式,其目标是在图数据中找到符合查询约束条件的顶点集合。图查询任务可以分为两种类型:小查询和大查询。小查询在执行时只需要遍历一小部分顶点和边,而大查
目标检测技术在计算机视觉扮演着根本性的作用,是许多高级视觉任务的基础,同时在许多场景中得到大规模的应用,像智慧城市、智慧医疗、智慧农业等。虽然随着近些年深度学习的发展,目标检测的性能得到显著的改善,但是现有方法依然面临着目标尺度及场景多样复杂性的挑战。本论文针对现有目标检测算法的不足,分别从网络结构及损失函数两方面提出具有现实意义及原创性的算法。一方面,现有的目标检测算法一直面临着对小尺度且模糊的
操作系统是系统中最重要的部件之一,承载着从桌面软件到服务器程序的各种应用,确保应用的稳定、高效、安全运行。目前服务器中大部分系统都使用宏内核,例如Linux,其共享内核地址空间的架构减少了不同模块交互的性能开销,然而这种宏架构却使得其安全风险越来越突出。代码量的巨大导致内核几乎不可避免的包含诸多漏洞,隔离性的缺乏则使得内核安全性更加脆弱,且内核的权限极高,一旦其中任何一个部件被攻破,整个系统都暴露