论文部分内容阅读
虽然红外摄像头已经被越来越广泛地应用,但是针对红外图像目标跟踪的算法研究仍然十分稀少。通常有两类方法解决红外图像目标追踪问题。一类方法是使用人工特征。由于人工特征通常有大量的假设,限制了这类方法的使用场景。另一种方法是把用于解决可见光图像的深度学习模型直接应用于红外场景,但效果比可见光目标跟踪有明显下降。本文根据目标追踪任务关注的两个评估指标—准确率与鲁棒性,分两种不同的方案展开研究。针对现有基于深度学习的红外目标追踪算法的缺陷,经过对红外图像的特征分析,本文提出了一个多层次特征相似度模型用于红外目标跟踪。基于在红外目标追踪中不同层次的图像特征解决的问题不同:低层次的特征对目标的形变更加鲁棒,高层次的特征对复杂的背景干扰更加鲁棒。本文提出了一种基于孪生网络框架的多层次特征相似性模型。该模型包含一个结构相关相似性网络和一个语义相关相似网络来计算不同层次特征的相似度。结构相关相似性网络能够捕获一对热红外目标的局部结构信息,可以帮助网络区分同类的相似热红外目标。语义相关相似性网络可以增强全局语义表达能力。该模型还包含一个基于相对熵的自适应集成网络对结构相似性和语义相似性进行融合。本文针对基于孪生网络的追踪算法无法适应目标长宽比例变化的问题,在基于孪生网络的区域提议网络上融入了自适应锚框生成模块,利用目标的轮廓信息在线生成锚框作为基准,通过回归锚框与目标的误差,调整锚框来得到更精确的预测框。同时为了利用目标的运动信息,引入了贝叶斯决策模块,根据运动信息对目标可能出现的位置的概率进行调整,使得追踪模型更加鲁棒。本文在VOT-TIR 2015与VOT-TIR 2017两个评价指标对上述两种改进方案进行了评价,实验表明,本文提出的两种方案均能明显提升算法性能。其中,本文提出的第一个模型较其baseline在VOT-TIR 2017上提升了9.4%,第二个模型较其baseline提升了16%。