基于表达增强与决策优化的深度视觉目标追踪方法研究

来源 :哈尔滨工业大学 | 被引量 : 1次 | 上传用户:woshiwl0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉目标追踪是机器视觉领域最基础也是最重要的研究方向,在现实生产生活中有着大量应用需求,一直受到研究工作者的重点关注。视觉目标追踪方法一般由两个模型构成:视觉表达和追踪决策。在视觉目标追踪过程中,追踪决策根据目标对象的视觉表达,将其从视频序列中持续地标注出来。随着深度学习技术的复兴,视觉目标追踪的研究迎来一次重大机遇。相比于传统视觉目标追踪方法所使用的手工描述特征,基于深度学习的视觉目标追踪方法(简称为“深度视觉目标追踪方法”)通过卷积神经网络学习到的深度特征具有更好的判别和表达能力;而全卷积孪生网络进一步将视觉表达和追踪决策集成到统一框架之中,使深度学习的端到端训练和推理优势在视觉目标追踪领域得以充分发挥。但是在追踪过程中,目标对象的外观会发生各种各样变化以及视频序列中存在各种复杂干扰因素,给视觉表达和追踪决策带来了巨大的挑战和困难。本文针对深度视觉目标追踪方法中的表达增强和决策优化两个方面展开深入的研究,主要内容如下:(1)鉴于使用相关滤波器作为追踪决策的非端到端深度视觉目标追踪方法虽能使用稠密样本和高维深度特征进行快速优化,但限于基于岭回归的决策优化模型的判别能力较弱,其追踪性能有待进一步提升。本文使用具有强判别能力的支持向量机对相关滤波器进行优化,并构建了基于支持向量滤波的追踪决策模型。该模型一方面借助相关滤波器的循环结构化采样和频域快速计算,使用稠密样本和高维深度特征进行优化;另一方面将追踪任务等价为目标对象和背景环境的分类间隔最大化问题,提升了非端到端深度视觉目标追踪方法的判别能力。此外,为解决单一类型深度特征对目标对象外观变化表达不充分的问题,本文使用多层互补深度特征增强视觉表达的鲁棒性,并通过多置信融合策略以获得更准确的追踪结果。(2)基于静态图像分类数据集预训练的卷积神经网络在动态的视觉目标追踪任务中不具备普适性,其原因是无法学习到具有关键作用的目标对象与背景环境之间的类别差异性信息以及目标对象在视频序列中的时序关联性信息。本文对机器视觉的注意力机制进行了深入研究,设计了基于注意力学习的表达增强模型。该模型在视觉目标追踪过程中借助视频帧间注意力和图像帧内注意力,以充分挖掘潜在的关键信息并实现视觉表达的选择性增强。此外,为提升追踪决策对目标对象外观变化的适应能力,构建了基于背景感知相关滤波的决策优化模型,并将该模型嵌入到主干网络中。在实现决策模型和视觉表达端到端训练与推理的同时,还可以根据目标对象与背景环境的变化对决策模型进行在线优化。(3)针对深层结构卷积神经网络往往会引入大量参数并在下采样过程中造成目标对象纹理细节丢失,以及浅层结构卷积神经网络顺序推理得到的语义结构化信息存在类别表达能力不足问题,本文对深度特征的层次化学习进行了深入研究,设计了具有深层结构和对称拓扑的表达增强模型,通过自底向上和自顶向下的重复推理过程中不断提取并聚合不同层次的低阶几何纹理和高阶语义信息。同时,为了提升模型的训练与推理效率并降低参数量,研究并探讨了深层结构卷积神经网络的轻量化方法。在表达增强的基础上,本文进一步提出了基于标注框检测的决策优化模型,实现对目标对象更精准标注。(4)针对目前深度视觉目标追踪方法在处理目标对象尺度变化时往往需要生成额外尺度候选和引入冗余参数的问题,本文构建了基于极点感知的决策优化模型。将目标对象建模为位于其四个边缘方向上的极点,通过检测四个极点的位置以实现对目标对象尺度变化的准确估计。该模型简单高效,直接依赖视觉表达结构化输出目标对象尺度大小。同时,鉴于极点的空间精度敏感性以及目标对象边缘区域缺少语义结构化信息,本文提出了基于跨层并行细化的表达增强模型。通过对具有不同空间分辨率的边缘纹理及语义信息进行多次并行的信息交换和自顶向下的自适应融合,有效为极点感知追踪决策提供既具有高空间分辨率又包含丰富层次化信息的视觉表达。本文结合深度学习技术,针对现有视觉表达模型和追踪决策模型所存在的不同问题及缺陷开展研究,提出了一系列基于表达增强与决策优化的深度视觉目标追踪方法,以有效地提升视觉目标追踪的性能和效率。在多个大型公开视觉目标追踪评测数据集上的评估结果表明,所提出的深度视觉目标追踪方法在各种复杂场景下能准确并稳定地标注出所追踪的目标对象,为该领域的发展提供了一定的借鉴和指引。
其他文献
回应21世纪素质教育的高师中文写作教学必须贯穿个性化原则.素质教育本质意义上是一种个性化的教育,所谓创新思维和创新能力本质上是个性化的思维和个性化的实践能力.高师中
德国易福门电子有限公司作为工业自动化领域中电子传感器的主要制造商之一,在全球享有盛名,近日,易福门重点推出最新产品。
介绍了20t电弧炉的工艺及PLC自动控制系统的组成及控制方式,并详细介绍了炉的各种控制功能的设计及实现。
由氟哌酸与Ni(Ⅱ)、Cu(Ⅱ)、Zn(Ⅱ)的硝酸盐合成了三个未见报道的固态配合物,并用元素分析、摩尔电导、红外光谱、热重分析表征了它们的组成和性质。
本文介绍了现用皮带机所用的平行托辊及滚筒结构和存在问题,提出了改进方法。经过改进的皮带输送机使用效果较好。
本文研究了在磷酸介质中 ,铜强烈催化抗坏血酸还原钼酸铵生成钼蓝的反应 ,建立了催化光度法测定痕量铜的新方法。线性范围为 0~ 0 0 2 4μg·2 5mL ,方法检测限为 1 5
采用量子化学方法HF和B3LYP计算了Pt-CO的^1∑^+电子基态的电子结构屯Pt-C和C-O伸缩振动的拉曼光谱性质,计算结果表明d→2π反馈与Pt-C和C-O伸缩振动的频率相关。拉曼谱强度理论分析表明人射光频率显著影响计算
电视是继书籍、报刊、广播之后的,第四代传播工具.本文不仅详细分析了电视所具有的功能齐全、传播迅速、兼容性强,具有更大的渗透力、振撼力和导向力以及强烈的参与性等特点,
利用组态相互作用理论和参数拟合内插的方法计算了类铜CuⅠ-AsⅤ离子3d^104s-3d^94s4p跃迁组态的能级,谱线波长和电偶极跃行的振子强度。3d^94s4p组态能级的所有计算结果与现有实验数据符合得很好。
低碳与环保有着密切的联系,二者之间相互影响,是人类日常发展中十分关键的约束性条件之一.在当前社会发展背景下,人们需要面临环境保护、温室气体排放等问题,所以必须高度关