论文部分内容阅读
视觉目标跟踪作为人类最基本的视觉能力之一,以其重要的理论价值、广泛的实用价值以及多学科的交叉性,成为学术界、工业界的关注焦点,并在智能视频监控、人机交互、辅助驾驶等领域成功应用。尽管如此,如何让目标跟踪算法在准确率、鲁棒性和实时性等方面提高还是一个高度开放问题。特别地,目前已有的目标跟踪算法研究仍存在目标表观建模方法粗糙化、多模态信息未充分融合、对样本噪声的敏感性、定位精度不足等问题。最近提出的基于孪生网络的跟踪器在准确性和速度之间实现了良好的平衡,引起了广泛的关注。然而由于该模型主要集中在使用离线训练的方式来构建匹配网络,而没有进行在线更新,仅仅使用第一帧目标特征作为唯一的线索来进行目标搜寻,因此对存在的外观变化相似物干扰和背景杂波干扰等问题抵抗力较差。针对这些问题,本文提出了基于多层孪生特征自适应融合的目标跟踪算法(Hi-Tracker)研究和基于自然语言语义分割和表观建模的多分支孪生网络的跟踪算法(SegA-Siam)研究。(1)Hi-Tracker通过端到端的训练方式将判别式相关滤波器集成到孪生匹配网络中,以提高每个特征层的判别能力。然后,对响应图的峰值与峰噪声比(PNR)进行分析来决定是否更新模板或实施背景抑制。通过一个简单有效的运动轨迹预测模型来选取候选区域的位置。并将快速变换学习模型融合到网络中,通过在傅里叶域内快速的变换学习来捕获目标外观变化,和对候选区域中嘈杂的背景进行抑制,改进后的网络对相似物体的干扰具有鲁棒性。最后,Hi-Tracker充分利用了不同网络层特征的特性,融合了来自不同层特征匹配得到的响应图作为最终的输出,以估计最佳目标状态。OTB2013[1]和OTB2015[2]的实验结果表明,Hi-Tracker在最先进的跟踪器中具有竞争性能,而且在GPU上以25 FPS的实时速度运行。(2)SegA-Siam使用语言特征来对目标位置进行粗筛选,再使用视觉特征对目标进行精细定位,并且使用长短时记忆网络(LSTM)[3]来对目标模板进行建模,以提高模板特征的判别能力。该网络包含了两个分支,基于自然语言的语义分割分支和基于LSTM表观建模分支,两个分支都是孪生网络的形式。语义分割分支的结构与SiamFC[4]相似。该分支先通过基于自然语言的目标分割网络对候选区域进行处理得到一张对前景和背景进行分类的掩膜,将掩膜与候选区域相乘来实现背景抑制的功能。在目标表观建模分支,使用双向LSTM对深度特征进行处理,将深度特征的宽度为时间步依次输入网络可以加强目标特征内部之间的关联性,以此增强目标特征的判别能力。两个分支单独训练,在测试的时候将两个分支输出的响应图使用一定的权重进行融合作为最终的响应图来确定目标的位置。通过观察发现,响应图中的峰值主要集中在目标附近,峰值最高的位置未必是目标的位置。因此选取了多个峰值,结合峰值和每个峰值对应的目标框与上一帧目标框的重合率联合确定最终的目标框。