【摘 要】
:
手部姿态与形状估计技术在人机交互、增强现实、虚拟现实、智能机器人等领域具有广泛的应用。近些年,随着深度学习的迅猛发展,涌现出大量基于计算机视觉的手部姿态与形状估计方法。尽管这些方法已经取得较高的估计精度,但是它们通常需要借助大量含有3D标签的数据进行训练,而3D标签的获取需要消耗大量的人力成本,因此研究不依赖于3D标签数据的手部姿态与形状的弱监督估计方法是十分必要的。为了减轻网络对3D标签的依赖,
论文部分内容阅读
手部姿态与形状估计技术在人机交互、增强现实、虚拟现实、智能机器人等领域具有广泛的应用。近些年,随着深度学习的迅猛发展,涌现出大量基于计算机视觉的手部姿态与形状估计方法。尽管这些方法已经取得较高的估计精度,但是它们通常需要借助大量含有3D标签的数据进行训练,而3D标签的获取需要消耗大量的人力成本,因此研究不依赖于3D标签数据的手部姿态与形状的弱监督估计方法是十分必要的。为了减轻网络对3D标签的依赖,本文针对基于RGB图像的手部姿态与形状的弱监督估计方法进行了相关研究,具体的工作内容可以概括为以下两个部分:(1)提出了一种基于循环一致的手部姿态与形状估计弱监督迁移学习方法。首先搭建网络进行预训练,本文采用三阶段法,并根据各阶段任务的特点,选择具有强大图像表征能力的卷积神经网络搭建了2D姿态估计模块,使用善于处理一维向量数据的残差全连接网络搭建了3D姿态估计模块,使用善于发掘图结构数据信息的图卷积网络,搭建了手部网格模型顶点坐标估计模块;其次进行迁移训练,为了减轻网络对3D数据标签的依赖,先将网络在指定数据集(源域)进行全监督预训练,然后在新的数据集(目标域)上采用2D标签作为监督项,使用循环一致的学习策略进行弱监督迁移训练,从而实现了在目标域数据集上手部姿态与形状的准确估计。(2)为了进一步减少对3D标签数据的使用,本文又提出了一种基于对比学习的手部姿态与形状估计自监督迁移学习方法。本文使用非刚体变换的手部模型制作了一个合成数据集,首先将网络在该合成数据集(源域)上进行预训练,同时为了提高网络对输入表示的特征提取能力,使用对比学习策略将预训练分为对比学习预训练的上游任务与姿态估计预训练的下游任务;然后在新的数据集(目标域)上进行自监督迁移训练,完成对目标域数据集上手部姿态与形状估计的自监督训练。在几个公开数据集上的计算机仿真实验结果表明,本文两种手部姿态与形状估计方法是有效的,其性能与部分全监督方法相当。
其他文献
随社会经济的飞速发展,陆地的许多资源已无法满足人们需要,对海洋资源的开发处于一个十分重要的战略地位。水声通信在海洋资源的环境勘探与开发等方面扮演着不可或缺的角色。相较陆地无线通信系统,水声通信面临更多挑战,如时延扩展长、带宽受限、多普勒效应显著以及快速时变等。为实现在复杂多变水声信道中的可靠通信,本文将正交时频空间调制(OTFS)与水声通信结合。针对OTFS水声通信系统中的信道估计与信道均衡技术展
无线感知是一种通过分析受目标状态影响的无线信号来获取感兴趣目标状态信息的新兴非接触感知技术。该技术利用周围广泛存在的无线信号来对目标状态进行感知,其具有低成本、不受光照影响、隐私性较好等优点,因而使得其在智能家居、智能监护、人机交互领域有着广泛的应用前景。受深度网络在计算机视觉领域广泛应用并取得丰富成果的启发,无线感知技术近年来很多工作都倾向于采集无线数据集,然后基于数据构建无线射频图像数据集,接
遥感图像目标识别是一种图像级的任务,目的是分辨遥感图像中物体的类别,在军事安全、海上交通等方面应用广泛。近年来,深度卷积网络在遥感图像识别任务中表现优异,相对于传统方法展现出巨大优势。目前,深度学习在遥感图像目标识别领域主要的研究方式为利用注意力机制获取辨识性特征或是加入检测、分割等子网络定位识别重点区域。然而,多数遥感图像目标识别研究仅适用于高分辨率遥感图像。针对低分辨率遥感图像目标识别准确度较
随着资源需求的日益增加,世界各国愈发重视海洋资源的勘探与利用。水下无线传感器网络(Underwater Wireless Sensor Network,UWSN)作为开发利用海洋的重要技术手段之一,受到了学界和业界的广泛关注。但是,目前对水下无线传感器网络的研究仍面临诸多挑战,例如,水下传感器网络多功能节点的设计、网络节点的部署算法等。本论文围绕水下无线传感器网络的移动节点部署方法和水下多媒体信息
显著性目标检测作为计算机视觉领域中的一项重要任务,对于图像高层语义的理解具备重要意义,为各类图像处理和计算机视觉相关任务提供了必要的先验知识。作为像素级图像分割任务,显著性目标检测非常依赖高质量、大规模的像素级标签作为数据支撑,其获取往往费时费力、代价高昂。因此,基于标注高效的图像级标签的弱监督学习近年来受到了广泛关注。现有工作大多关注于如何获取高质量的伪标签,而忽略了伪标签中广泛存在的噪声对于显
虹膜识别使用人眼图像中虹膜区域丰富的纹理信息进行用户身份识别,是目前最安全、使用最广泛的生物识别技术之一。为了提升虹膜识别技术的性能,本文设计了基于深度学习模型的虹膜定位和识别方法,分别从虹膜定位、虹膜识别以及模型轻量化三个方面展开研究。首先,与现有的使用标准圆形拟合虹膜内外轮廓的虹膜定位方法不同,为了缓解标准圆形框无法准确定位变形虹膜的问题,本文设计了一个基于旋转椭圆框的虹膜定位模型,该模型在旋
随着经济、科技和医疗水平的快速发展,社会人口老龄化愈发严重,老年群体的健康问题也随之凸显。跌倒已经成为老年群体意外伤害死亡的主要原因之一,若能及时对跌倒进行检测,则可以为救援提供宝贵的时间先机。本文基于计算机视觉技术,分别从人体的姿态建模和动作的时序建模两方面入手,充分挖掘了人体的姿态信息和动作的时序特征,提高了跌倒检测的准确率。首先,在姿态建模方面,现有的跌倒检测方法通常采用人体骨架来表征姿态。
显著性目标检测目的是识别出图像中最吸引人的对象或区域,是计算机视觉领域的重要任务。根据输入数据的类型,现有的显著性目标检测算法可以分为3类:RGB、RGB-D以及光场方法。与RGB以及RGB-D数据相比,光场数据包含丰富的场景信息,能够满足困难场景的信息需求。近年来,深度卷积神经网络的发展取代了传统基于手工特征的算法,显著提高了光场显著性目标检测的性能。然而实际场景中,较高的光场数据获取成本、极为
深度伪造技术的出现和发展使得视频内容的真实性无法得到保证,同时深度伪造内容的迅速传播和受到的广泛关注使其带来的负面影响和潜在威胁日渐严重。因此,深度伪造检测技术的研究对个人隐私的保护和社会信任体系的维护都有着极其重要的意义。本文的研究内容是面向不同质量的深度伪造检测。现有的检测方法在面向经过压缩的深度伪造图像和视频时,检测准确率会出现明显的下降。本文将检测不同程度压缩率的深度伪造图像和视频定义为不
人群计数任务是指对图像中的人数进行准确估计,在交通控制、安全监测和环境研究等方面有很高的应用价值。近年来,研究者们对基于深度卷积神经网络的人群计数方法进行了深入研究,人群计数模型的性能越来越优异。然而,人群计数任务的泛化性问题却研究较少,不具备泛化性的人群计数方法的应用范围十分受限。基于上述研究背景,本文对人群计数任务的泛化性问题进行探索,并提出了人群计数的泛化性方法。本文完成的主要工作如下:(1