视觉跟踪系统中基于人机交互的目标信息提取技术研究

来源 :北京理工大学 | 被引量 : 1次 | 上传用户:q2316456q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来目标跟踪算法研究已经取得了长足发展,因而也被广泛应用到了现实场景中去,所涉及的视觉系统小到手机、无人机,大到无人汽车、监控系统等等,涉及了不同的跟踪目标和应用场景。跟踪算法从理论研究到现实应用的嫁接过程也遇到了各种问题,初始化信息的获取就是其中之一。在理论研究中,跟踪算法初始化时所用的目标信息来自于所用视频集中的人工标注。但实际视觉系统所在的真实场景中没有现成的人工标注,初始化信息需要通过目标检测或者人工交互的方式来给定。基于目标检测给出初始目标的方案具有局限性。其中基于模型的针对特定目标或特定类别物体的检测算法需要已知目标模型或者已有足够多的样本来训练模型;而基于背景差分、目标轮廓特征、图像显著性等技术的通用目标检测算法往往对目标的运动状态、场景的混杂程度有着特殊的要求。因此在目标种类多样、场景复杂多变、跟踪需求不一的现实视觉跟踪系统中,手工提取目标仍然是不可缺少的方案之一。但是一直以来都鲜有视觉跟踪系统中基于人工交互来提取初始目标的相关研究,人机交互既缺乏数据基础和理论分析,也没有针对其中问题的系统性解决方法。为了填补这一空白,本文收集并建立了实际场景下的人机交互数据集,提出了全新的基于人机交互的初始目标提取方法,同时为了实现这这些方法在多个研究方向上进行了算法创新。本文收集并建立了首个公开的人机交互输入数据集。由于视觉系统的应用范围极广、输入规则不同、交互环境有异,本文征集了多名测试用户,设计了三种不同的交互规则,收集了两种不同的交互操作信息,同时用于收集交互数据所用的视频均拍摄于实际视觉系统,包含室内室外、白天夜晚、行人车辆等不同的场景和目标。目前为止数据库规模超过了20000多个有效的人机交互输入。基于该数据库,本文进一步对人机交互输入进行了建模,分析并讨论了影响交互输入精度的主要原因,并按照视频特点和交互难度对视频数据集进行了分类,为后续算法的提出和测试提供了数据基础。从本文建立的人机交互输入数据集中可以清晰的看到,人机交互操作在众多场景下的低精度输入和跟踪算法初始化时的高精度需求之间存在着矛盾。针对这一问题,本文提出了三种操作复杂度和输出精度不同的人机交互初始化方法。本文提出了一种通过人工输入的单次点击自动恢复出目标区域的人机交互方法,其核心为本文提出的一种融合类目标采样(Object Proposal)和显著性特征(Saliency)等底层图像信息的通用目标检测算法。其中类目标采样算法的任务是从图像中检测所有可能包含物体的图像窗口,基于底层图像特征的特性使得其采样输出会在完整的物体轮廓周围聚集,本文利用这一特点实现了不依赖先验目标模型的通用目标检测。算法的输入为一个针对待跟踪物体的人工点击,通过融合类目标采样窗口、图像显著性信息、以及前文数据集中得到的人工交互输入分布模型,在减小交互输入误差的同时自动恢复出待选目标区域。本文算法使得目标提取过程仅需一次人工点击就可完成,操作复杂度低,适用于需求快速响应的系统环境,同时由于不依赖先验目标模型,该算法可用于任意目标的检测。实验表明本文算法灵活有效,可以大幅度的提高人工交互输入的精度,实现了基于单次点击输入的目标区域提取方法。本文提出了一种基于视频稳定的通过人工拖选提取目标区域的人机交互方法,其核心为基于目标运动轨迹的视频稳定算法。传统视频稳定方法需要估计摄像机的运动模型以进行图像变换,稳定后的视频中场景和目标均实现平滑的运动。但是对于人机交互来说,在视频抖动之外目标本身的运动同样会造成输入精度的降低。因此本文通过估计待选目标的运动轨迹来作为视频稳定的依据,与传统的视频稳定技术只消除摄像机抖动相比,本文算法同时消除了相机抖动以及待选目标在交互界面上的相对运动,使得待选物体相对于交互界面保持静止,极大的方便了更为复杂的交互输入。实验表明本文方法可以有效的消除视频抖动和目标运动,基于该算法人机交互操作得以给出精确的目标区域,使得复杂场景下精确信息的提取成为了可能。本文提出了一种基于在线视频分割的精确目标区域选取方法,其核心为本文提出的一种视频超像素分割算法,与传统方法相比本文算法提出了“支持超像素组”的概念来处理遮挡。视频超像素与图像超像素间的不同在于超像素区域会在视频序列中传播。基于视频超像素分割可以得到任意超像素在其他帧中的对应位置,因此人机交互时可以通过点选目标包含的超像素来得到其他帧中对应的精确区域。传统视频超像素方法因为没有考虑遮挡前后的超像素配准从而会导致轨迹中断,“支持超像素组”利用超像素间的轨迹相似性、基于隐形状模型和广义霍夫投票的方法来估计被遮挡的超像素位置。实验证明本文提出的视频超像素算法可以有效的对抗遮挡,延长超像素轨迹长度,基于此算法的人机交互方法可以得到更加灵活、更加精确的目标信息。
其他文献
废名的小说《菱荡》淡化故事性,在细微的片段场景中对日常生活做了想象的表达,表现出浓郁的诗意,反映了废名以梦为真实的艺术追求。只有整体理解废名小说精神和建立废名小说
本文从禅宗的角度 ,重新处理“菱荡”和“陈聋子”之间的关系 ,试图缕析出《菱荡》这篇小说所蕴含的废名对于生活的态度 ,即禅宗式的生活观及其对于现实的价值。本文分成三部
我国刑法学界普遍主张紧急避险所保全的权益必须大于其所损及的权益,否则为保全生命而牺牲生命的恶性事件将有增无减。于是,在紧急避险限度条件问题上便形成了占主导地位的权
<正>速裁,是我国法院在司法改革中独创的一种审判方式,在审判实践中发挥着显著的成效。其不但有鲜明的形式特征,在诉讼理念、价值追求上也与传统的诉讼有所不同,区别于目前的
<正>主持人给我定的题目是"好人要联合起来做好事",这是教育家杨东平教授提出来的。这里有三个概念:"好人""联合""做好事"。"好人"就是一些理想主义者,"联合"就是组织起来,就
运用翻译适应选择论,以译者的适应与选择为视角,分析贾佩林英译《英雄》,旨在说明21世纪初,贾佩林英译《英雄》适应了当时中国电影打入国际市场,国外观众对中国电影充满好奇
<正>10月18日,艾默生总裁成瑞恩(Mike H. Train)作为先进制造业国际咨询委员会的一员,在人民大会堂与国务院总理李克强进行了友好会面。成瑞恩同来自委员会其他几家跨国公司
作为2016年国庆档票房破十亿的口碑黑马,《湄公河行动》以其善用细节、巧用烘托、求真意识充分体现了极高的案件还原度及导演林超贤一贯的实景真情作风,赢得了观众的好评,创
非自杀性自伤行为是一种特殊的行为和心理问题,是指在无自杀意图的情况下,直接、故意、反复地伤害自己的身体,且不会导致死亡的行为。我国青少年自伤行为的研究目前还处于起
硫酸工业在我国的国民经济中占据重要的地位,也是我国的的基础工业。为了进一步实现硫酸工业的发展,对硫酸工业生产过程中节能减排的要求是尤为关键的,这也是实现其可持续发