【摘 要】
:
随着科技的发展,智慧家居、驾驶手势以及智慧医疗等人机交互的应用都会将手势交互技术加入其中,而手部姿态关键点估计对于手势交互技术的发展是十分关键的。深度学习不断发展,使手部姿态关键点估计发展迅速。然而目前手部姿态关键点估计存在以下两个问题:一是当前研究基本只对单手关节点进行检测而更实际和复杂的场景中,处理完整的图像,它不仅包含多只手,还包含人体、背景等其他物体;二是数据集短缺。网络的训练需要高质量的
论文部分内容阅读
随着科技的发展,智慧家居、驾驶手势以及智慧医疗等人机交互的应用都会将手势交互技术加入其中,而手部姿态关键点估计对于手势交互技术的发展是十分关键的。深度学习不断发展,使手部姿态关键点估计发展迅速。然而目前手部姿态关键点估计存在以下两个问题:一是当前研究基本只对单手关节点进行检测而更实际和复杂的场景中,处理完整的图像,它不仅包含多只手,还包含人体、背景等其他物体;二是数据集短缺。网络的训练需要高质量的数据集,目前公开的多手RGB数据集的数量过少且质量不高等问题使得实现这一目标仍然具有挑战性。针对以上问题,本文进行了如下几点创新性的研究和探索:(1)针对当前研究基本只对单手关节点进行检测的问题,本文提出一种基于级联并行卷积神经网络的二维多手姿态关键点估计模型(Hrnet-hand)。该网络模型采用先找手再定位关节点的Two stages网络思想,第一阶段网络利用目标检测YOLO网络来精准定位图像中的所有手,并提取输出目标框的中心点作为第二阶段网络输入的一部分。第二阶段网络将Hrnet网络迁移学习至手部姿态关键点估计任务,该网络在维护高分辨率的同时并行进行多尺度特征的融合,并在网络初步提取特征后加入双维度注意力机制,其对检测目标区域影响较低的特征的像素值权重削弱,抑制不必要的特征,而对影响较高的特征的像素值则会增加权重,增强网络表现力,由此输出的多手关键点热力图在空间上更精确。(2)针对数据集短缺的问题,本文对现有公开的多手RGB数据集进行标签补齐,确保图片中出现的所有手都有对应的关键点标注,提升数据集质量;此外,本文用真实的手图像构建了自己的数据集DCD8-6000,并对图像进行了高质量的手动注释。为了验证本文所提方法的有效性,本文在具有丰富背景、有遮挡以及拥有复杂手势的三个数据集:MPII-hand、NZSL和DCD8-6000上分别与3个经典手部姿态关键点估计算法进行对比试验。结果表明本文模型是有效的,实现了仅依靠单RGB图像进行多手姿态关键点估计任务,同时提升了检测的准确率。
其他文献
在大数据时代,诸多机器学习算法对数据降维等数据处理方法有了更高的要求,主成分分析作为一种重要的数据降维算法,在经典机器学习中占有举足轻重的地位,其量子化算法在2014年由Lloyd首次提出,使其在量子计算机上的实现具备了理论基础。量子主成分分析作为量子机器学习中的重要算法,近年来得到诸多科研学者的青睐,目前发展的q PCA算法可以直接提取较大的特征成分,减少采样量,但也存在一些不足:一是估计不准确
中国陕西省南部地区具有丰富的寒武纪早中期(535百万年前)宽川铺组微体化石,盛产四方塔型壳、早期动物胚胎、原牙形刺等各类微体化石,有助于探寻寒武纪时期动物的起源以及大爆发的成因,是十分重要的研究方向。但是早期的研究人员因技术手段的限制主要依靠人工显微镜筛选的方法寻找微体化石。微体化石数量庞杂,但因为具有研究价值样本稀少,人工手段存在误差,并发现效率低下,极大影响了寒武纪早期生命进展。基于上述研究背
传感技术是当今世界高新技术研究热点之一,而光纤传感技术以其测量精度高、便于组网、抗电磁干扰等特有优势近些年得到飞速发展。光纤传感是将待测参量的变化与光纤内光学参量变化建立起关系,通过对传感器信号的解调,反演出外界待测物理量变化的传感技术。解调技术是光纤传感系统中的核心技术,航空航天、机器人和国防工业等应用场景对集成化和小型化的光纤传感解调系统提出了迫切的需求。本论文研究了基于绝缘衬底上的硅(Sil
图像修复属于数字图像处理中的一个重要的研究分支,它是指将有缺损的图像通过技术手段复原,使其尽可能与原图像相同。目前图像修复在医学、安保、军事以及电影等行业中都有广泛应用,因此有很重要的研究价值。而近年来,深度学习尤其是生成对抗网络的出现,给图像修复研究提供了更好的技术和手段。边缘是数字图像中一个重要的信息,它可以在一定程度上可以反映物体的信息,确定物体的形状和边界。而在图像修复中,经常出现由于无法
近年来对于图像合成的研究已经取得了不小的进展,但是在一些医学领域的图像合成问题上依然存在着不足,其中包括对主动脉夹层增强扫描图像的合成研究。在主动脉夹层的临床诊断中,CTA图像诊断优势要远强于平扫CT图像。但是CTA图像所采用的增强扫描存在一定的弊端,因而利用深度学习技术构建网络模型,将平扫CT图像合成为CTA图像,对医学影像辅助诊断具有重要意义。本文先后提出了基于通道注意力机制的主动脉夹层增强扫
在石油生产测井领域中,准确地获取井中流体流量信息,对于油井状态评估、油井采收率提高和工程安全监测等具有重要意义。随着石油化工产业的不断发展和人类对于能源需求的不断扩大,石油生产测井逐渐从常规测井向低渗油气、高含水油气、页岩气等开采难度较高的方向转换,原有的流量检测手段逐渐难以满足人类的需求。光纤传感技术由于其具有灵敏度高、抗电磁干扰、耐高温高压、尺寸小、易于组网复用等优势,得到了相关领域科研人员的
气体传感器在空气质量监控、易燃易爆气体和有毒有害气体检测中发挥着重要作用。金属氧化物气体传感器(MOGS)因具有灵敏度高、测量范围广、响应/恢复时间快、寿命长、成本低等优势受到了广泛的关注。常见的MOGS材料有Zn O、In2O3、Sn O2、α-Fe2O3、Mo O3和WO3等,但是通常基于这些材料的传感器工作温度高,影响了进一步应用与发展。g-C3N4作为一种新型光催化材料,因其良好的光敏性和
乳腺癌是全球发病率第二高的癌症,也是女性发病率最高的恶性肿瘤。影像学检查在乳腺癌早期检测和诊断中扮演着重要角色,凭借其精准无创的诊断性能,检出初期乳腺疾病,从而抑制病情恶化、提升治愈率。磁共振成像(Magnetic Resonance Imaging,MRI)作为癌症检测的重要无创手段,能够发现乳腺早期病灶,精准地反映病变的形态特征和血流动力学信息,是乳腺癌早期检测的重要工具。同时,随着深度学习在
近年来,深度学习技术不断应用于各行各业。本文将深度学习技术应用于金融领域,对商品期货未来价格趋势进行预测。本文分析两类期货数据:数值型数据、文本型数据。数值型数据包括交易数据和指标数据,使用数值型数据可以辅助判断买卖点和趋势。文本型数据包括新闻、机构的分析文章、投资者的评论等多种形式,通过分析其传递出的情感,判断未来价格趋势。因此对这两类数据进行分析对投资者进行决策具有重要意义。数值型数据的趋势预
在现代临床诊断过程中,医生往往需要通过一系列医学成像技术对病灶进行分析,最终确认诊断结果。由此可见医学影像技术在现代医疗中扮演着关键性的角色。传统的图像配准算法,如B-spline和SYN等在医学配准中取得了很好的效果,但是它有一定的局限性,如适应性差,一种方法或一组参数只适用于某一特定模态甚至特定的数据集上;处理速度慢,传统的配准算法大都采用迭代优化的方式,导致其处理速度相当慢,无法进行实时配准