【摘 要】
:
手势姿态估计在增强现实、虚拟现实以及人机交互等方面存在巨大的应用前景,一直以来是计算机视觉领域的重点研究方向。随着大规模手势姿态数据集的出现,基于深度图像的深度学习方法逐渐成为了手势姿态估计领域的主流方法。当前研究主要通过构建三维卷积神经网络进行手势姿态估计,致力于单一精度的提升,但通常导致模型复杂度过高、推理速度低下,难以满足实际应用、实时运行的基本要求。因此,为追求精度和实时性之间的平衡,本文
论文部分内容阅读
手势姿态估计在增强现实、虚拟现实以及人机交互等方面存在巨大的应用前景,一直以来是计算机视觉领域的重点研究方向。随着大规模手势姿态数据集的出现,基于深度图像的深度学习方法逐渐成为了手势姿态估计领域的主流方法。当前研究主要通过构建三维卷积神经网络进行手势姿态估计,致力于单一精度的提升,但通常导致模型复杂度过高、推理速度低下,难以满足实际应用、实时运行的基本要求。因此,为追求精度和实时性之间的平衡,本文以单一的深度图像作为输入数据,通过构建二维神经网络进行手势姿态估计。本文着眼于单深度图像下的手势姿态估计研究,研究内容可分为如下两个部分:(1)提出了一种基于CNN和Transformer的异构融合的手势姿态估计方法。该方法分别利用了CNN在局部特征关系建模以及Transformer在全局特征关系建模方面的优势构建了一个特征融合结构。首先,以事先计算的参考点为中心建立立方体框从原始深度图像中分割并归一化手部深度图像。其次,将归一化后的深度图像输入前端网络得到1/2输入大小的特征图。然后,将该特征图输入到两个连续的特征融合结构中得到融合特征,在每个特征融合结构之后嵌入热图监督模块引导网络更好的提取特征。最后,将该融合特征输入后端网络得到预测的关节点坐标。这种结构设计更大程度上挖掘了二维输入的潜力,在提供较高估计精度的同时,算法的实时运行性能也得到了保证。(2)提出了一种基于注意力机制和深度可分离卷积的轻量级手势姿态估计方法。该方法分别利用了注意力机制在引导网络进行特征提取以及深度可分离卷积在降低标准卷积参数量方面的优势构建了一个轻量级神经网络。首先,对原始深度图像进行预处理获得归一化的手部深度图像。其次,将归一化后的深度图像输入前向的特征提取网络得到四种分辨率的特征。然后,将该特征分别输入到对应的多分辨率特征融合网络得到融合特征。最后,将该融合特征输入到关节点预测模块得到对应的关节点坐标。这种结构设计使得模型复杂度大大降低,在保证估计精度的同时,拥有更好的实时推理速度,可以应用于移动和嵌入式设备等内存和算力有限的场景之中。本文在该领域的三个主要的公开手势姿态数据集ICVL、MSRA和NYU上进行了大量的实验,深入地探究了两种方法中提出的结构设计的具体作用,同时又与该领域的其他方法进行了详细的对比。实验结果表明,提出的两种方法都能够在保证较高估计精度的同时,具备良好的实时运行性能。
其他文献
在土壤科学、地下水水文学和环境工程等学科中,预测非饱和土壤中的流体运动是一项重要问题。尤其是在暴雨袭击时,了解水渗入土壤的方式对预测洪水和滑坡等灾害至关重要。由于Richards方程在灾害预测等方面有重要应用,快速且稳定的计算方程成为许多学科需要解决的重要问题之一。本文针对Richards方程做了数值计算方面的研究工作。在第二章中,我们建立了求解h-型Richards方程的半隐式线性化有限元方法。
本翻译实践节选了史蒂夫·门兹的书Ocean进行翻译。Ocean是一本散文集,描述了西方文化视角下的海洋,用词优美、富有诗意。作者在书中表达了他的审美感受与对海洋文明的思考,充满了丰富的情感。根据文本内容和特点,本报告选择了切斯特曼翻译规范理论作为理论框架。本论文旨在研究译者在进行翻译活动时会受到哪些翻译规范的影响,并分析在这些翻译规范的影响和制约下,译者在进行散文翻译时会采取何种翻译策略。译者选取
曲线和曲面拟合在科学和工程等领域里一直都是重要的研究课题.样条函数因其灵活性等优点,已经成为曲线曲面拟合中必不可少的工具.近些年来,随着研究的逐步深入,利用简单的样条来描述复杂的实际问题已经不再适用了,进一步研究更加灵活、高效的样条函数以及曲线曲面拟合方法就变得十分必要.本文主要研究和讨论如何利用样条函数来自适应地对曲线曲面进行拟合.一般来说,曲线曲面拟合问题都会涉及到解线性方程组的问题.但是随着
巴金的作品以描写家庭生活为主,小说《家》通过对高公馆由盛转衰的描写,展现了封建专制制度必然崩溃的历史趋势,讴歌了青年们的觉醒和反抗。“把”字结构是汉语中的典型表达,其句法结构为“N1+把+N2+VP”(VP是动词短语)。“把”字使得宾语移位至动词前,动词后可附加更多成分。该类结构不仅广泛应用于书面语,在口语中也大量使用,对于小说和戏剧的人物刻画和心理表征具有重要的辅助作用。本文以巴金小说《家》及曹
《文化中国》一书是中国现代新儒学代表人物杜维明先生缅怀其在东海大学的业师牟宗三和徐复观所著,系儒学主题著作,共收录杜维明先生有关新儒学的文章18篇。本文选取第三篇作为翻译材料,因其集中体现了作者的新儒学思想,具有深刻的中国文化思想内涵。根据纽马克的文本类型学,并通过对翻译材料进行分析,笔者判定原语文本既是表达型文本,又是信息型文本,兼具独特的原文风格与向读者传递信息这两种特征。鉴于此,为使译文保留
顺序回归,又称为排名学习,是机器学习领域中的一种介于分类和回归之间的监督学习问题.顺序回归的目标是从带有排序标记的样本中学习一个多分类器来预测新样本的标签.许多现实问题都非常重视对标签之间顺序关系的处理,这些问题大多可以被建模成顺序回归问题.事实上,在那些重视人类需求、行为与偏好的领域,顺序回归已经得到了广泛的应用,比如医学研究、信用评级、文本分类、人脸识别、社会科学等.支持向量机(Support
随着神经网络技术的发展,机器翻译迎来了新发展浪潮。在对国内语言服务行业进行的调查中,我们可以看到,机器翻译在语言服务行业的应用越来越广泛。而所涉及的翻译服务领域中,科技类文本占比最大。研究表明,机器翻译在翻译文学类文本时具有一定的适用性。但由于受到其机械性和自动性等特征的制约,机器翻译更适用于科技文本等非文学文本的翻译。在英语科技文本中,被动句是最为常见的一类句式,在运用机器翻译处理科技文本时,被
近年来,应用张量分析解决可视化数据的恢复问题越来越广泛.以矩阵补全和主成分分析的矩阵形式为基础,将其推广至张量情形.但由于张量秩的定义的多样性,产生了不同的低秩张量补全(LRTC)模型和张量鲁棒主成分分析(TRPCA)模型.目前最为广泛的是基于张量Tucker秩和张量tensor-train秩的LRTC模型和TRPCA模型.相比于张量Tucker秩,张量Tensor-train秩更能体现张量的内部
数学建模,曲线和曲面的构造以及形状保留是计算机辅助几何设计(Computer Aided Geometric Design,简称CAGD)中非常重要的研究领域。传统Bézier曲线由经典Bernstein基函数和控制顶点组成,具有对称性、端点性、非负性、线性精度、积分性、凸包性等优良特性。利用经典Bézier曲线的参数和几何连续性约束,可以很容易地构造任意曲线形状,但它的缺点是,设计者不能在不改变
近十年来,得益于硬件设备的升级和计算机算力的指数式增长,深度学习在计算机视觉领域取得了巨大的成功,并且在诸多行业有了实际的应用。图像领域的研究趋近饱和,以及短视频数量的急剧增长,也让作为计算机视觉的一个重要组成部分的视频,越来越受到研究人员的关注。但是,由于视频本身具有的信息冗余性,时序性强,时间范围广等特点,基于视频的分析和识别仍然是一个较大的难点。本文通过不同架构的网络结构,在多个数据集上进行