【摘 要】
:
随着科学技术的进步以及生活质量的提升,人们渴望更加方便、快速、有趣地进行人机交互,手部姿态估计和形状估计有望实现无接触的人机交互。随着人工智能的发展和5G技术的商用,利用深度学习估计手部姿态和形状成为可能,大量研究者尝试利用深度图像和彩色图像估计手部姿态与形状,并取得了令人欣喜的成绩。但当前的手部姿态及形状估计方法仍有提升空间,十分有必要对此展开研究。本文的研究工作如下:(1)深度图像自带深度信息
论文部分内容阅读
随着科学技术的进步以及生活质量的提升,人们渴望更加方便、快速、有趣地进行人机交互,手部姿态估计和形状估计有望实现无接触的人机交互。随着人工智能的发展和5G技术的商用,利用深度学习估计手部姿态和形状成为可能,大量研究者尝试利用深度图像和彩色图像估计手部姿态与形状,并取得了令人欣喜的成绩。但当前的手部姿态及形状估计方法仍有提升空间,十分有必要对此展开研究。本文的研究工作如下:(1)深度图像自带深度信息,基于深度图像估计得到的手部姿态精度很高。对传统基于深度图像的手部姿态估计任务而言,其流程可以总结为手部特征提取、手部特征转换为手势特征,以及手势特征转换为手部姿态三个步骤。这个流程是一次性完成的,且仅在网络输出端提供约束,没有直接约束流程中的三个步骤。针对这一问题,本文给出一种手势隐空间引导的姿态估计方法,该方法将不可控的手部姿态估计任务分为三个可控的子任务:手势隐空间获取、手部隐空间获取,以及手部隐空间转换为手势隐空间,并根据三个子任务的特点给予了约束,使得整个姿态估计过程可控。计算机仿真实验结果表明,本文方法在多个常用公开数据集上达到了较高的精度。(2)深度摄像头功耗较大、价格较高。随着智能设备的普及,双目彩色图像越来越容易获取。本文设计了一种基于双目深度估计的手部姿态估计方法。传统深度估计网络需要深度图像真值约束才能达到良好的精度,该方法以弱监督方式训练深度估计网络,不需要深度图像真值约束。计算机仿真实验结果表明,在公开的双目手部数据集上,本文方法估计出的手部姿态的精度与最新方法相当,估计出的深度图像接近由主动式深度传感器获取的深度图像,优于传统基于立体匹配获得的深度图像。(3)在某些需要获得接触信息的特定场景,仅能使用单目彩色图像估计手部形状和姿态。当前基于单目彩色图像估计手部形状的方法十分依赖于手部形状标注,而手部形状标注的获取代价很高。针对这一问题,本文设计了一种基于弱监督方式训练的方法,减轻了网络对于手部形状标注的依赖。首先,在包含手部形状标注的大型数据集Freihand上以全监督方式训练网络,以获得丰富的手部形状先验。然后,以弱监督方式训练网络,将在Freihand数据集上学到的手部形状先验迁移到新场景中。计算机仿真实验结果表明,在多个公开的手部数据集上,本文方法可以估计出合理的手部形状,且估计精度接近最佳方法。
其他文献
语音合成是一种将给定文本转换为语音的技术,它在手机语音助手、有声读物、歌曲合成、地图导航等领域具有广泛的应用。近年来,随着神经网络理论的快速发展,基于深度学习的语音合成方法成为当前的研究热点,并取得重要研究进展。该类方法通常采用端到端的语音合成模型,所合成的语音质量高、自然度好,但其参数较多,计算量很大,对硬件设备的存储能力和运算能力要求较高,在算力较低的设备上难以实现实时的语音合成。本文针对中文
在互联网软件快速发展的背景下,用户数据的采集与挖掘展示出了巨大的应用价值。用户画像作为勾画目标用户、联系用户诉求与设计方向的有效工具,它将具体信息抽象成标签,通过标签来描述用户特征。目前,针对于用户画像分析,用户标签单一往往导致用户分析不精确,大数据计算复杂,消耗时间长,并且针对不同的软件应用来说,用户的数据差异较大,不能采用统一的方式进行统计和计算。本文针对短视频应用,分析特定用户数据,使用基础
近年来,深度神经网络已经在计算机视觉、自然语言处理等诸多领域取得突破性的成绩,然而相比于决策树等逻辑直观的机器学习模型,深度神经网络本身的黑盒特性以及使深度神经网络失效的对抗样本,使得它们难以直接应用到医疗决策、自动驾驶等高风险领域中。因此深度神经网络的可解释性备受关注,多从图像分类任务的可解释性开始研究。一种主流的研究思路是探索模型对于单幅图像或一类图像的决策依据。前者以可视化解释方法为主,它们
2017年底,女性平权运动#MeToo如火如荼地展开,女性自发讲述权力性侵遭遇更成为媒体集中关注的社会问题。依托于历史传统,在国内女性讲述或控告遭遇权力性侵是一个年轻且大胆的话题。各类媒介中,涉事女性从模糊的桃色绯闻、权势罪责、红颜祸水中逐渐脱离男性附属品的标签呈现出愈发清晰的样貌,与此同时却也伴随着一系列伦理失范现象与强暴迷思。本研究主要采用个案分析、内容分析、文本分析、深度访谈四个方法:个案选
目的:探讨中医护理适宜技术融入优质护理服务的效果。方法:医院自2021年5月起对呼吸内科的护理管理模式进行调整,尝试将中医护理适宜技术融入优质护理服务,通过培训,明确优质护理服务理念,确保中医特色护理服务质量,并围绕优质护理服务增加中医适宜技术,重新拟定护理流程,做好相关质控工作,统计调整前后3个月呼吸内科的管理数据,比较不同时期的护理管理质量,调整前后各随机抽取100名患者,调查满意度情况。结果
虹膜识别由于具有准确性、稳定性、非接触性等特点而成为最受关注的安全识别认证方法之一。该方法利用虹膜丰富的纹理信息对个体进行身份验证。由于深度卷积神经网络具有强大的特征提取能力,本文基于深度学习的方法分别设计了应用于虹膜识别任务的虹膜检测与分割以及识别的架构。在对虹膜图像进行识别前,首先要对人眼图像中的虹膜区域进行检测与分割。不同于以往使用Adaboost级联分类器等传统方法对虹膜进行检测,再利用霍
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其在频率选择性衰落信道中的优异表现,在第四代移动通信技术中扮演了重要的角色。但是作为一种多载波传输方案,OFDM符号与生俱来的高峰值平均功率比(Peak-to-Average Power Ratio,PAPR)问题会导致严重的非线性失真。传统的PAPR抑制算法性能有限,且会造成一定的
现如今物联网正在快速发展,无线数据流量的需求随之迅猛增长,多种无线信号,如WiFi、蓝牙、毫米波等充斥在人们的工作和生活空间。无线信号除了可以进行通信外,还可以被用来实现感知覆盖范围内目标信息状态,如位置、速度、手势、步态、生命体征等。目标的不同状态对无线信号的反射、折射、散射等现象会产生不同的影响,无线感知技术通过揭示和分析目标对周围无线信号的影响模式,实现不同的感知任务。凭借其不需携带任何设备
深度神经网络在图像分类、识别等领域取得重大进展。但深度模型的“端到端”决策逻辑和工作机制,使其成为“黑盒”模型,不被人类用户理解。人们开始研究可解释性技术,期望以可理解的方式解释这些模型,因此对深度神经网络的工作原理进行准确地解释是很重要的。然而,一个被操纵的解释可能会削弱人类用户对解释的信任,进而误导人类用户不相信一个可靠的网络。因此,设计有效的攻击方法来模拟现实世界中各种可能的威胁,对于评估现
Web2.0技术的进步使得在线知识社区成为用户之间生产和分享知识的大规模协作平台。而随着人工智能(Artificial Intelligence,AI)技术的不断发展,在线知识社区正逐渐由人人协作转变为人与机器人协作进行知识生产。然而,虽然当前社区中的机器人已经成为的重要协作主体之一,但对于人机协作的内在影响机制的研究仍缺少足够的重视,此外,当前关于人机协作的研究缺少对应的理论框架作为指导,并且缺