虚拟场景人机交互中手势识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:CoolSky_BO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字孪生技术和虚拟/增强现实技术近几年得到了快速发展,促进了许多传统行业的革新,如制造业、建筑业、教育等领域。这两种技术都是在强调如何更好的将物理空间映射到虚拟空间,以及两者之间如何更好的交互融合。不难想象,未来许多场景下的物理空间必将伴随着超写实的虚拟空间。因此,物理空间与虚拟空间的交互,特别是虚拟空间下的人机交互问题将是重要的、亟待解决的基础性问题。  从虚拟现实的定义来讲,最重要的特性的是沉浸性和交互性。如何增强用户的沉浸感,关键在于一致性原则,即虚拟空间的反馈/反应能够与用户物理空间的状态同步。现有的虚拟现实眼镜主要解决了视觉一致性问题,即通过椭偏仪等传感器对用户的视角实时获取,虚拟空间中的场景相应的实时变换,从而与用户视觉同步。对于交互来说,用户的姿态也应该在虚拟空间中与物理空间保持一致性,即物理空间中用户的手势姿态可以跟虚拟空间中的手势姿态保持同步,因此手势估计最为契合。本文的研究内容也主要围绕手势估计问题展开,其作为一个具有挑战性的问题,一直困扰着许多研究人员,主要存在的难点包括高维、自遮挡、环境不可控、快速变化、计算量大等。近几年随着深度传感器和深度学习的发展,提供了新的解决方案和思路。基于此背景,本文主要开展以下研究:  (1)利用深度相机获取手势深度图像,并选取合适的关节点个数作为模型的输出,用于表示相应的手势姿态。根据获取到的图像特点,通过添加噪点、随机扰动等方法对数据进行增强,克服深度传感器精度不佳的问题,提高模型的鲁棒性。根据手势估计任务的高维特点,研究深度卷积神经网络,构建相应的网络模型,用于端到端的预测关节点坐标,并与传统回归模型进行了对比分析。  (2)为提高网络模型的预测准确率,通过分析深度卷积神经网络的特点,从提高特征提取能力的角度出发,研究了多尺度特征融合的网络结构,并优化其输出函数,以提高网络模型的估计效果,通过与他人工作进行对比以验证所提出的方法的有效性。  (3)为解决深度神经网络对数据的依赖问题,以及手势姿态数据获取成本高的问题,充分挖掘数据集的内在信息,研究无监督/弱监督学习方法,结合手势估计数据图像自身特点,以输入图像重建为弱监督目标,研究了基于对抗自编码的弱监督优化模型,提高预测的准确率,同时还对数据的内在维数进行了探讨。  (4)为解决由于深度传感器自身原因和手势快速变化和自遮挡导致的原始图像数据存在缺失的问题,将模型输入由单帧变为连续帧,为应对连续帧的问题,研究卷积神经网络和递归神经网络相结合的办法,提出卷积递归神经网络模块,并与提出三维卷积神经网络进行对比分析,最终实现了较好的识别效果。  (5)为使模型更加轻便,解决计算量大的问题,研究神经网络的结构简化和优化方法,提出了三维分离卷积操作,从而减少参数个数,提高运算速度,实现网络模型的压缩。最终结合相应的虚拟现实开发技术,搭建了相关的应用案例。
其他文献
碰撞振动系统广泛地存在于机械工程领域,由于碰撞和冲击等因素造成的强非线性,使得系统的动力学响应十分复杂多变。碰撞振动系统一般都是多参数的高维系统,此特点增加了碰撞振动系统的理论分析难度。针对这一现状,本文做了两方面的工作:一是碰撞振动系统的周期倍化临界分岔临界参数区域的分析,二是碰撞振动系统Hopf不变圈幅值的理论估计分析方法。本文在Schur-Cohn准则的基础上建立了一类高维映射系统在参数空间
随着小学语文课堂教学模式的改革与创新,教师更加注重学生兴趣的培养,多采用趣味化教学方.探究分析趣味教学法在小学语文教学中的重要意义及高效运用策略,让小学生在语文学习
论文采用多体系统动力学分析方法,对JSFA288型精梳机和XH6650高速加工中心进行了数字化建模和仿真分析。针对JSFA288型精梳机振动与噪声问题,论文提出精梳机车头箱传动系统的动