基于胶囊网络的视觉跟踪方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:descendant_of_shang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉目标跟踪任务一直以来都是计算机视觉中的热点问题,研究者们始终致力于研究鲁棒的跟踪器来应对现实情况中出现的各种干扰因素,包括:光照变化、形变、快速移动、运动模糊、复杂背景、遮挡以及低分辨率等等。针对这些干扰因素,研究者们通过利用灰度或手工设计的特征来对部分-目标、目标-局部上下文以及目标-背景上下文的关系进行建模。受制于这些简单特征有限的表达能力,基于卷积神经网络的深度特征被引入其中,使得这些方法的性能得到进一步提升。然而,卷积神经网络的本质是学习特征的位移不变性,即只学习特征的存在与否而非特征之间的相对位置关系,从而导致次优的关系建模。近年来,作为卷积神经网络替代者的胶囊网络,依靠其对特征空间关系的建模,已成功应用于图像分类、图像分割以及视频分类等视觉任务。但胶囊网络在目标跟踪任务中的应用仍是空白,如何在目标跟踪任务中发挥胶囊网络的特征关系建模能力需要进一步研究。本文将利用胶囊网络对视频中与目标相关的同质特征(包括部分-目标、目标-局部上下文、目标-背景上下文)和异质特征(视觉与文本)的关系进行建模,主要研究内容包括:(1)针对部分-目标的关系建模,本文提出了基于金字塔密集连接胶囊网络的级联跟踪和分割方法。首先,针对固定的感受野限制了胶囊的编码能力,提出了金字塔密集连接胶囊模块,用于构建不同尺度的部分-目标的空间关系。其次,将该模块扩展到基于检测的跟踪和分割任务,同时生成边界框和类别无关的目标对象分割掩码。最后,针对基于检测的跟踪中候选样本与分类器质量不匹配问题,提出了一种提高候选质量的级联结构,该结构通过级联多个金字塔密集连接胶囊模块来逐级提高候选样本的质量。(2)针对目标-局部上下文的关系建模,本文提出了基于胶囊网络的局部上下文感知的回归跟踪方法。整个回归框架由三部分组成。首先,空间关系胶囊模块用于捕捉目标和局部上下文之间的空间关系。与此同时,时序关系胶囊模块用于提取目标和局部上下文之间的时序关系。最后,通过时空胶囊学习模块学习目标与其局部上下文之间的时空关系并得到目标的响应图。此外,提出了一种先验引导的胶囊路由算法来指导后续帧胶囊的准确分配。针对胶囊网络计算复杂度过高的问题,提出了基于知识蒸馏的姿态矩阵压缩策略,利用更简洁且兼具判别力的姿态矩阵来构建胶囊表示。(3)针对目标-背景上下文的关系建模,本文提出了基于背景修复和胶囊网络的跟踪方法。针对单一外观模型无法应对目标复杂多变且难以预测的外观变化,提出以背景上下文信息为主并辅以目标信息的跟踪策略。设计了一种基于胶囊的跟踪方法,用于构建目标-背景上下文的关系,其中包括一个背景修复网络和目标感知网络。背景修复网络利用多帧的场景来恢复目标区域的背景信息,目标感知网络只关注目标本身,并以胶囊编码背景和目标表示来捕捉场景中各物体与目标之间的空间关系。此外,设计了一个融合多域信息的背景-目标路由算法来提高模型对于干扰物的鲁棒性。(4)针对视觉-文本的关系建模,本文提出了一种以胶囊网络为基础,结合自然语言查询的跟踪方法。在以往的工作中,主要通过简单的动态卷积滤波器来建模视觉和语言两种异质特征的关系。然而,自然语言的语言变异使得动态卷积难以对动态变化的目标及其上下文进行有效建模。同时,应重视以查询为关注点的视觉上下文区域,进而促进视觉信息与语言信息的交互。根据以上分析,提出了一种基于胶囊的跟踪网络,并结合自然语言查询来进行目标的定位。首先,视觉和文本的输入通过胶囊编码。之后,设计了两个路由模块,包括视觉-文本路由模块和文本-视觉路由模块,在减少文本查询的语言变异的同时,引导视觉分支关注文本查询关注的目标上下文区域。
其他文献
星间时间基准同步、地球重力场测量等空间探索任务对脉冲激光光源的脉冲能量、体积大小等关键参数提出了更严苛的技术要求。现有的技术方案要对种子源脉冲激光进行一级或多级放大,这无疑增加了光源装置的复杂性、占据了更多的空间资源。为了直接提升种子源阶段输出的脉冲能量,相关学者们从复式金兹堡-朗道方程出发理论预言了高能量光学脉冲极峰孤子的存在。基于砷化铝镓波导阵列的快速可饱和吸收方法具有结构参数可被优化、损伤阈
学位
随着高通量测序和芯片技术的快速发展,基因组学的研究逐渐入了后基因组时代,包括DNA修饰、RNA编辑、组蛋白修饰及染色质结构重塑等表观遗传学逐步成为基因调控领域的研究热点。DNA甲基化作为最早发现的表观遗传机制,随着海量数据的积累,使得研究DNA甲基化与转录因子相互作用及基因调控功能成为可能。DNA甲基化与转录因子相互作用的生物功能对理解DNA甲基化与特定遗传疾病、发现新的疾病标志物和新的药物靶点等
学位
人体行为识别(Human Activity Recognition,HAR)是普适计算领域中的一个典型应用,为很多上层应用如医疗、军事、娱乐等提供了重要的基础信息。随着微机电技术的发展,智能传感器模块在感知能力和识别精度方面得到显著提升,以加速度计为主的传感模块在HAR领域得到了更广泛的应用。因此,目前很多研究工作都在利用传感器提取人体时空运动信息,例如加速度、角速度等行为数据来实现行为识别。类似
学位
可再生能源的大规模应用是实现“双碳”目标的重要途径,但是可再生能源所固有的间歇性问题将会对供能的安全、稳定性造成极大威胁。天然气既可以作为实现“双碳”目标过程中的过渡选项,又可以作为“双碳”目标达成后的平衡措施来提高可再生能源的开发消纳能力,平衡可再生能源对供能系统的冲击。随着“源网荷储”一体化构想和多能互补发展思路的推行,燃用天然气的小、微型燃气轮机在未来能源系统中将拥有广阔的应用前景。在未来的
学位
城市轨道交通是目前改善城市用地有限,解决交通拥堵问题的最好方法。然而,在城市轨道交通工程施工过程中,经常出现各种安全事故。为了降低事故发生频度,减少损失,本文从事故发生的原因入手进行分析,并给出可行的安全管理控制措施。
期刊
超精密运动系统是光刻机的关键组成部分,其控制技术是光刻机的核心技术之一。为满足光刻机特征尺寸、套刻精度和产率等关键技术指标,其运动系统必须兼顾高动态与超精密的运动需求。目前,超精密运动控制通常采用反馈与前馈相结合的二自由度控制结构,在反馈控制带宽受限于机械结构模态无法继续提升的情况下,前馈控制可以通过及时补偿参考轨迹和外部扰动来提升运动控制系统的响应速度和运动精度。然而对于光刻机运动系统这样模型及
学位
近年来,随着互联网金融的发展,非法传销突破了传统地域、社交关系的限制呈现出爆发式的增长和扩张态势,严重威胁着人民的经济财产安全,极大地破坏了国家的金融安全环境。非法传销作为一种集体型欺诈行为,具有组织运作方式复杂、抗侦查能力强等特点。然而,现阶段依赖情报线索、数据检索、人工分析的传销行为侦查手段难以满足我国对非法传销监管的实际需求。大数据时代的到来提供了丰富的金融数据,如何充分利用数据分析技术实现
学位
图像空间分辨率作为衡量天文成像系统性能的核心指标,直接决定能否实现全天候、多目标和高清晰度的观测需求,然而天文成像过程受到系统像差、大气湍流、高度真空和极端温度等众多因素影响,不可避免地造成实际观测天文图像的空间分辨率大幅降低。通过“硬件途径”提高天文图像空间分辨率的效果极其有限,因此本文研究如何利用超分辨率重建技术突破天文成像系统自身的理论衍射极限,尽可能地复原目标天文场景本来面貌且改善其清晰度
学位
近些年来基于端对端学习的神经机器翻译由于其十分突出的翻译性能受到学术界和工业界的广泛关注。相比于传统的需要显式建模隐含结构的统计机器翻译,神经机器翻译直接整体建模源语言文本到目标语言文本的翻译过程,有效地摆脱对于繁琐而复杂的特征工程的依赖。具体而言,其对于待翻译的源语言文本进行理解以编码获得相应的连续向量表示,而后根据该连续向量表示规划目标语言具体内容进而翻译得到目标语言文本。虽然神经机器翻译已经
学位
目的 研究当前及未来气候模式下新疆维吾尔自治区(新疆)钝缘蜱适生区分布情况。方法 通过实地采样及文献检索,选取2002-2022年间新疆地区钝缘蜱的分布数据,利用ArcGIS 10.6软件对获取到的钝缘蜱分布数据进行筛选;从WorldClim 2.1数据库中获取新疆地区过去30年及未来80年气候数据,使用最大熵(MaxEnt)模型的折刀法测试结合Spearman相关性分析筛选主要环境变量。根据筛选
期刊