【摘 要】
:
人机交互(HCI)很大程度上取决于手的行为检测,例如手部动作识别,手势识别等。然而,在许多人机交互情况下,例如手指指示、点击等,指尖检测则更为实用。在一般的目标检测中,尽管目前已经取得了长足的进步,但是细粒度的目标检测,例如指尖检测,由于其外观特征十分有限,对于现有方法仍然是一个挑战性的问题。先前工作都将指尖检测视为两个独立的任务,分别为手部检测和指尖检测;此外,在指尖检测过程中,先前的方法只能处
论文部分内容阅读
人机交互(HCI)很大程度上取决于手的行为检测,例如手部动作识别,手势识别等。然而,在许多人机交互情况下,例如手指指示、点击等,指尖检测则更为实用。在一般的目标检测中,尽管目前已经取得了长足的进步,但是细粒度的目标检测,例如指尖检测,由于其外观特征十分有限,对于现有方法仍然是一个挑战性的问题。先前工作都将指尖检测视为两个独立的任务,分别为手部检测和指尖检测;此外,在指尖检测过程中,先前的方法只能处理特定的情况,例如在图像中只有一个可见的手指指尖,或者指尖的数量是固定的且需预先给出,并且检测包含不同指尖个数的手部测试图像需要训练不同的预定义模型。为了解决上述手部区域与指尖检测联合求解,并适用于指尖个数不确定情形下的指尖检测问题,本文通过设计基于多任务学习的框架,提出了一种简单而有效的指尖检测方法。本文的主要研究内容和贡献如下:(1)本文实现了基于深度多任务学习的框架,来同时获取手部检测框和指尖检测结果,而不是像先前的工作使用级联网络分别获取它们。(2)本文提出了一种点回归损失函数,称为Root loss,以关注更小范围的回归误差,实现更精确的指尖定位。(3)本文进一步提出一种简单而有效的多指尖回归策略,对数量不同指尖的样本进行统一处理,以实现指尖个数不确定的多指尖检测任务,且无需预先设定指尖数量。本文使用公开数据集Ego Gesture评估提出模型的性能。对比实验表明了本文提出方法的优越性,且消融实验证明了每个模块的有效性。本文的方法在保持实时算法速度的同时,实现了最优的指尖检测精度。
其他文献
文本可视分析和计算机辅助设计等研究近年来快速发展,引起了博物馆领域的广泛关注,并初步应用于策展辅助工作。但是,现有的文本分析工作忽略了对展览文本进行语义挖掘,无法有效支持策展选题。交互式地进行展览方案策划,支持灵活编辑和逻辑叙事等研究也有所欠缺。与陈列设计相关的工作则存在对文博领域特征关注不足和交互设计不友好等问题。本文面向博物馆策展工作场景,对文本可视分析及计算机辅助设计方法在增强数字化资源的有
基于大型语料库,通过利用上下文信息训练得到的词向量已经被广泛应用于众多自然语言处理任务中,但在展现语义关系时往往表现较差。我们认为传统的实值词嵌入方法泛化能力不佳是因为语言模型的基本假设只包含了语言的分布特征,继而错误的将语用作为语义来表示单词。由于语言特征的多样性和复杂性,导致传统的实数词向量很难对复杂的语义关系进行建模,例如突现语义“ivory tower”、歧义现象(“spring”可指代春
在信息检索领域,量子干涉理论已经被应用于文档相关性、次序效应等核心问题的研究中,旨在建模由于用户认知所引起的类量子干涉现象。然而,上述工作仅仅局限于信息检索领域,而认知干涉现象广泛存在于各类以语义理解为核心的自然语言处理与信息检索的任务中,因此本工作旨在从更本质的单词层面对语义组合过程中存在的类量子干涉现象进行建模。本文在探索文本中单词与词组语义差异性的基础上,提出了一种基于量子干涉理论的双重特征
化石燃料的日益枯竭使得核能作为一种新型能源得到了广泛的应用。由于核辐射是看不见且摸不着的,通过科学可视化把三维核辐射剂量分布呈现出来,能够快速定位核电站内部的高辐射区域。同时由于核辐射环境的危险性,虚拟现实能够模拟复杂的核电站工作环境,有助于进行培训演练以及设备维修等操作。传统的面绘制算法能够根据不同的辐射剂量值呈现出核辐射的表面信息,但是无法看到剂量分布的内部细节。基于光线投射的体绘制算法针对大
行为识别是计算机视觉领域中的一个热门且具有挑战性的方向,被广泛应用于视频检索、治安防控等领域。行为识别的难点之一是行为动作特征抽取,传统方法聚焦于RGB图像,这些方法受限于光照变化、背景复杂无序、以及纹理信息复杂。带有距离传感器的RGB-D相机(Kinect)在拍摄影像的同时捕获距离信息,为行为特征抽取提供了新思路。由RGB-D相机捕获的深度图像,其像素代表当前场景中的元素与摄像头之间的距离,因此
目的 探究阿昔洛韦联合转移因子口服液治疗传染性单核细胞增多症(IM)患儿的临床效果。方法 选取南京市溧水区人民医院2017年1月至2022年4月收治的84例IM患儿作为研究对象,采用随机数字表法将其分为对照组和研究组,各42例。对照组给予阿昔洛韦静脉注射治疗,研究组给予阿昔洛韦联合转移因子口服液治疗。治疗1周后,比较两组临床疗效、咽峡炎消退时间、颈部淋巴结肿大消退时间、退热时间、CD3+、CD4+
新冠疫情对旅游行业造成了巨大的影响,同时也加快了旅游业态和旅游产品的更新迭代,催生了新的模式。在后疫情时代,为加快复苏与转型,旅游业需要分析当前消费者对于旅游产品的新需求,改进现有旅游产品及其服务模式和理念。本文研究了当前相关的理论研究进展,并利用调查问卷,从消费者的角度分析受疫情影响的旅游产品消费变化情况,并针对当前发展存在的问题,提出发展建议。
近年来,人口老龄化和空巢化的加剧使得养老服务领域的需求进一步升高。由于老年群体本身所具有的特殊性,在海量的数据中获取到匹配的服务变得更加困难。现阶段针对老年人的推荐算法考虑维度较为单一,需要考虑更多的维度使得对服务对象的刻画更加明确。老年人群体的描述有很多不同的维度,从多种方式得到的数据具有复杂的数据类型,模型转化也存着较大的困难,在保留客户特征的前提下处理高维状态下的多模态数据成为棘手的问题。此
X线头影测量分析是正畸临床辅助检查的重要手段之一,患者拍摄X线头颅侧位片后,正畸医生在X光片中对牙颌、颅面等标志点描绘特定的线角,计算线距,从而分析相应的解剖结构特征,并据此做出相应的诊疗方案。解剖学标志点的定位是头影测量分析中的关键问题,每张侧位片中包含了数十个标志点,反映了牙颌、颅面软硬组织结构的发育情况及相互关系。由于X射线成像的限制,头颅侧位片存在组织结构重合、不对称,成像不清晰等情况,手
随着信息技术与互联网的发展,越来越多的人参与到社区中进行交流、评论、转发,这使得社交网络的分析越来越复杂。网络分析通常是一个繁杂的过程,如何有效的在网络中找到所需的节点成为了一个值得研究的问题。本文提出了一种基于网络嵌入的方法,使用非负矩阵分解或神经网络的方式,将网络的文本信息和结构信息进行联合嵌入,从而得到网络表示矩阵,同时将用户指定的文本信息和结构信息进行向量化表示。最终根据用户指定节点属性的