基于上下文信息的视频目标跟踪问题研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jianbin0703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标跟踪是计算机视觉领域的一个重要研究方向。它的任务是在给定目标物体的起始位置与尺寸的情况下,准确地判断该目标物在接下来视频帧中的位置和尺寸。现在,先进的目标跟踪算法被广泛应用于多个工业领域,包括机器人导航、视觉增强、视频监控等。然而,尽管在过去的数十年中目标跟踪领域飞速发展并取得了一些显著的研究成果,现有的目标检测算法在复杂场景中的表现仍然欠佳。因此,研究抗干扰能力强、高效健壮的跟踪算法依然是亟待完成的工作。在复杂场景的视频目标跟踪过程中,有三个主要问题会导致当前的目标跟踪算法无法准确地找到目标。第一,严重遮挡导致跟踪结果恶化。这是因为当前算法多依赖于连续的在线更新过程,长期、严重的对目标物体的遮挡会使得当前算法的外观模型倾向于学习并表达关于遮挡物的特征,继而导致跟踪结果变差。第二,目标物体产生剧烈形变导致跟踪结果恶化。这是由于当前算法所建立的外观模型无法较好地表达目标物发生刚体或非刚体形变后的状态,故极易跟踪到外观相似的物体上,甚至彻底丢失目标物体。第三,跟踪器发生漂移导致跟踪结果恶化。这是由于跟踪器易受环境噪声的影响,其输出结果相对正确的目标物体状态发生了偏移,而这一偏移量会随着时间的增加而不断累积变大,最终使得跟踪器输出的结果漂移到无关背景上导致跟踪失败。为了解决上述问题并构建更加鲁棒的目标跟踪算法,本文致力于挖掘视频中的时空间上下文信息来对抗复杂场景中所存在的遮挡、形变,以及漂移问题。具体来说,时间域上下文信息是指视频中若干连续相邻帧上相同空间位置处所能观测的视觉信息,它可以通过分析之前视频中的视觉内容以及物体状态得到。时间域上下文信息可以为目标跟踪算法提供物体及其周围环境的在一段时间内的变化信息,用以补充的当前的视觉信息。这类信息在物体被严重遮挡、物体剧烈变形等情况下可以产生显著作用。同时,空间域的上下文信息指的是图像上被跟踪目标物体周围区域的视觉信息,它可以通过分析目标物与其周围图像区域的关系而提取出来,能够为目标跟踪算法提供在一定空间内的额外的视觉信息,同时帮助跟踪算法构造鲁棒的外观模型以对抗漂移等干扰因素。利用时空间上下文信息,本文针对目标跟踪中的严重遮挡、形变,及漂移等三个问题展开了深入研究并分别构建了有效的目标跟踪算法,以提高目标跟踪的性能及鲁棒性:(1)为了解决视频目标跟踪中的严重遮挡问题,提出Mask模板来建立目标的外观模型并基于稀疏表示方法设计了一种新颖的目标跟踪算法。Mask模板是一种新的外观模板,它保存了不同时间间隔尺度下的帧差内容,用以提取的时间域的上下文信息。我们把这些包含上下文信息表示的新的外观模板和已有的外观模板结合,构造出了更加健壮的外观模型,用以处理遮挡等干扰因素。我们的算法主要有三个贡献:a)我们引入的Mask模板不仅能够将上下文信息编码到基于稀疏表示的外观模型中,而且还大大减少了?1最小化问题的维度,使算法求解的时间缩短;b)当对目标物进行运动状态建模时,我们利用目标状态估计来提高跟踪器的性能;c)我们证明了使用加速近似梯度(APG)算法可以有效地解决文中所使用的模板约束条件下的模型求解问题。因此,我们提出的算法提高了跟踪精度同时减轻了计算负担。在实验中,我们将所提算法与21个优秀的跟踪算法进行了对比,其结果证明了我们提出的跟踪算法受到遮挡以及光照变化等干扰时依然能够保持鲁棒性。(2)为了解决视频目标跟踪中的物体形变问题,提出了双流全卷积神经网络结构,利用深度学习分析目标物体的外观变化,从而跟踪任意类别物体并提供像素级的跟踪结果。依此,我们建立了两个不同的全卷积神经网络分支来分别分析低层的运动变化信息和高层的语义变化信息。低层运动分析分支通过提取光流特征来分析和目标物有关的局部时间域上下文信息,例如跟踪目标的各个组成部分在视频帧间的运动情况;而高层语义抽象分支则集中分析两帧之间目标物的变化信息从而输出图像像素的语义转换(例如从背景像素转换为目标像素)。由于两个网络分支共享当前帧跟踪目标的空间位置,我们通过协同分析两项分支的输出可以准确获取跟踪目标在当前帧的状态,进而完成目标跟踪操作。此外,与大部分基于CNN的目标跟踪器不同的是,我们提出的双流全卷积神经网络不需要根据第一帧目标物的外观微调网络参数即可以开展跟踪任务,提高了运行效率。我们在密集标注的数据集DAVIS上将所提算法与多种跟踪算法进行对比,实验结果证明了我们提出的方法能有效地处理形变和目标旋转等干扰。(3)在检测跟踪框架下,提出引入注意力转移机制,显著地改进了目标跟踪算法应对漂移问题的能力,提高了跟踪结果的准确率。在检测跟踪框架下,算法会生成物体候选框(即object proposal)来帮助判别目标当前的真实状态,但是不精确的物体候选框很容易导致跟踪器产生漂移问题。我们主要启发自生物体上的视觉注意力的机制,通过分析空间域上下文信息帮助视觉系统逐渐地将注意力转移至准确的目标区域,进而在视野中捕获目标。依此,我们提出了一个独立于现有检测跟踪框架的注意力转移模型,它可对初始状态较差的物体候选框迭代地调整状态,使其能逐渐逼近目标物体的真实状态。该模型的应用十分灵活,既可以基于传统特征来构造,与传统的检测跟踪器结合;也可以基于卷积神经网络构造,用于当前流行的CNN构造的检测跟踪器中。多项对比实验表明,我们的方法有效地减少了质量较差的物体候选框,并在各类复杂场景下增加了目标跟踪算法的准确率,有效减少漂移甚至丢失目标物体的风险。
其他文献
聚醚砜(PES)超滤(UF)膜可用于甘蔗糖蜜的澄清和脱色,能够实现糖蜜中蔗糖和色素的回收.研究发现,随着使用的UF膜孔径减小,截留的污染物浓度增加且孔内污染愈加严重,导致膜的不
提出了园艺产品保鲜链、鲜活度和营养值等新概念.研究了保鲜链的模式和内容.探讨了适于中国国情的园艺产品保鲜链结构.提出从产品采收到消费的全过程都在保鲜链上进行,这样能
股骨颈骨折是老年人最常见的低能量骨折之一,目前的治疗方法主要有保守治疗和手术治疗两类,其中人工双极股骨头置换术是临床较为常用的方法。由于存在外展肌群张力低、髋臼形
运用DEA模型对2000-2016年福建省旅游经济效率进行测算,并分析其影响因素。研究发现:总体上福建省旅游经济综合技术效率、纯技术效率较高;有些年份规模效率较低,需调整产业规
虾壳常规预处理方法是用盐酸进行脱钙,其中丰富的钙质和优质蛋白质却被随意丢弃,既污染环境又浪费资源。本研究以反应液钙含量为评价指标,通过单因素试验分析柠檬酸苹果酸比
对华东地区半夏属内5个种7个群体进行营养器官的比较解剖,结果发现:(1)半夏属有3种类型的气孔器;有晶簇和针晶两种类型的晶体,晶簇为原始性状;导管直径的进化趋势由小到大。这3种性状十分
传统高等教育方式基于一般大学生的学习适应性设置,而较少考虑到民族学生的学习适应性问题。随着社会的不断发展,民族高等院校学习适应性问题逐渐成为学者们的关注焦点。本研
山东省某鸭场发生以心包积液-肝炎为特征的传染性疾病,并造成死亡。为探究其发病原因,对病料进行临床剖检、细菌学检查、病毒分离以及动物回归等试验,结果显示:剖检均可见心
1975年8月,淮河上游降下特大暴雨,引发多座水库垮坝,驻马店地区损失最为惨重。灾难发生后,政府在救灾中起到了主导作用,不仅采取紧急应对措施,在饮食、医疗、思想等方面及时