基于时序关系的单目标视觉跟踪算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yangyujie309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉跟踪是计算机视觉中最基本的问题之一,在多媒体领域中有着广泛的应用需求,比如监视、车辆导航、人机交互等等。近年来,随着深度学习及其相应硬件条件的发展,单目标视觉跟踪任务得到了计算机视觉领域很高的关注并取得了突破性的研究进展。然而,目前的研究大多忽略了跟踪任务的时序关系这一性质,相关主流方法仅仅将其建模成单帧的相似度匹配问题或二分类问题。时序关系作为视频类计算机视觉任务的基本特性,其所蕴含的信息应被相关任务充分利用。从这一观察出发,本文给出了两种基于时序关系的解决方案。本文具体研究内容包括:  首先,在逐帧检测跟踪(tracking-by-detection)框架下,研究如何将时序连续性引入到单目标视觉跟踪领域。现有主流算法忽略了时序连续性这一特性。受神经认知科学领域所提出的时序缓慢(temporal slowness)概念的启发,本文提出了适合视觉跟踪问题的等价物——时序表观连续性。具体地,本文给出其严谨的数学定义及其性质,利用该性质从理论层面上分析目标表,观表示预测误差的上界。另一方面,针对物体性,本文提出物体中心的概念,研究如何利用该概念提升跟踪器对物体性的敏感程度。最后,研究如何将时序表观连续性和物体中心判别有效融合到同一个模型下,使模型在具备很强物体性判别能力的同时,能够刻画时序连续性这一基本特性。实验方面,本文在在两个主流标准评测集上面对所提出的算法进行评估。实验结果表明,该方法相比于当前最先进(state-of-the-art)的方法在跟踪性能方面具备很强的竞争力。  第二,在逐帧检测跟踪(tracking-by-detection)框架下,本文研究如何将目标在时序上的隐状态表达学习引入跟踪领域,尝试将目标与所在场景之间复杂的运动模式建模成时序隐状态学习,进而刻画帧间目标在一定背景下的时序关系。此外,为了应对这种建模方式所带来的场景多域学习不一致的问题,本文探究了多域(Multi-Domain)的离线训练方式。在标准评测集上评估的实验结果表明了时序隐状态学习的有效性和多域学习的必要性。
其他文献
H.264/AVC是由ITU-T的VCEG(视频编码专家组)和ISO的MPEG(运动图像专家组)共同制定的新的视频编码标准。H.264使用很多先进的视频编码方法,与现有标准相比,它可以获得更高的压缩
学位
随着信息科技的日益发展,数据存储量的快速膨胀,人们经常会面对海量数据的检索问题。为了提高数据检索效率,数据库提供商需要建立一个可伸缩的网络服务模型满足不断增长的负载需
学位
四边形、六面体网格属于半规整网格,除了有限的奇异点(边)外,其他部分都由规整网格组成。相比不规整网格如三角形、四面体网格,四边形和六面体网格在整体结构和单元性质方面具有天
随着互联网和信息技术的迅速发展,文本数据规模指数爆炸式增长,网络已经成为一个丰富的数据宝矿。可是大量的数据不等于大量有价值的信息,如何有效地从数据中抽取知识挖掘价值,是
随着Internet的用户飞速增长,电子邮件已经成为最快、最经济的通信手段之一。如何有效地防范垃圾邮件,已经成为网络信息安全领域的一个亟待解决难题。垃圾邮件的数量在过去数年
随着气象科学的发展以及大气探测技术的提高,气象信息系统需要传输的实时气象资料与日俱增。为此,世界气象组织希望建立一个综合的、通用的信息服务平台,实现气象资料和产品的例
学位
目前,对业务变化的应对能力是企业生存和发展的关键所在,面向服务架构(SOA)为有效解决上述问题提供了新思路,但将SOA真正应用到实践中还必须准确把握SOA关键技术特点及应用模式
学位
目标散射特性和天线辐射分析,是雷达技术领域重要的研究内容。在现代战争中,武器平台的隐身和反隐身设计直接决定了其生存能力。进气道是腔体结构,对飞机的雷达散射截面有着显著
嵌入式系统是当今最热门的概念之一,是当前电子技术发展的又一新热点。它具有体积小、性能强、功耗低、可靠性高以及面向行业应用等突出特征,目前已经广泛应用于军事、消费电
工作流的概念起源于生产组织和办公自动化领域,目的是提高办事效率、降低生产成本、提高企业生产经营管理水平和企业竞争力的目标。随着知识经济的发展以及Intemet技术的迅速