论文部分内容阅读
目标跟踪的主要目的是获得目标在视频或者图像序列中每一时刻的运动状态,包括位置、大小等,进而获得其在整段视频中的运动轨迹。作为图像(视频)处理和模式识别领域的重要研究课题,目标跟踪具有广阔的应用前景。自问题提出以来,一系列方法相继出现,但仍然面临诸多困难,尤其是光照变化、遮挡、尺度变化、场景混乱、姿态变化、图像模糊和剧烈运动等因素对目标外观的影响,已成为制约其在实际中进一步应用的关键。近年来,在线目标跟踪(Online Object Tracking,OOT)逐渐成为目标跟踪领域的研究热点,该类方法试图根据目标的外观变化对跟踪器进行自适应地调整与更新,在解决上述问题方面取得了更为令人满意的效果。其中,随着近年来信号稀疏表示、凸优化理论以及压缩感知的发展,利用信号稀疏性进行目标跟踪的方法获得了广泛的关注。为此,本文针对目标在场景中外观变化情况下的跟踪鲁棒性问题,以目标跟踪为研究对象,以外观变化场景下基于稀疏表示理论的在线目标跟踪为目标展开研究。主要工作和创新点如下:(1)基于稀疏表示理论,本文提出了一种基于选择性稀疏外观模型和时空分析的生成性在线跟踪方法。首先,本文构建选择性稀疏外观模型,该模型将目标区域分割为相互重叠的图像块,利用关键点比例排序(Key Point Proportion Ranking,KPPR)算法构建目标区域的局部重要性评价,以最重要的部分图像块为关键块代表目标。然后,方法构建了基于时空分析的跟踪处理过程。对选择后的图像关键块进行基于Elastic Net正则化的时域加权稀疏表示,通过时空统计推断的分析方法,完成目标在当前时刻的位置估计。在运动建模部分,本文基于联合高斯分布假设和针对过去时刻跟踪信息的处理近似,构建了一种递推式的仿射运动模型;在观测建模部分,本文采用稀疏表示系数核加权迹的lp范数计算目标候选样本的置信度,并构建置信度-坐标空间(Confidence-Coordinate Space,CCS),然后通过较大置信度候选样本在该空间内的推演实现当前帧目标位置,使得目标位置的估计相对更为灵活,但不失鲁棒。该跟踪方法在本文构建的由16段典型测试序列组成的基准集合进行了测评实验,在其中14段序列实现了较为稳定和鲁棒的跟踪,12段序列平均中心误差在10像素以下,平均覆盖率综合达到了66.8%,其中1段测试序列对应的平均中心误差和平均覆盖率在全文24种跟踪方法测评对比中排名最优。实验的主客观分析结果表明,与经典的在线目标跟踪方法相比,本文所提出的生成性方法在跟踪准确率方面更具优势。(2)针对本文所提生成性跟踪方法存在的跟踪器易受周围环境负面影响的问题,结合稀疏表示理论中的字典学习问题,本文提出了一种基于增量结构化字典学习的判别性在线跟踪方法(Incremental Discriminative Structured Dictionary Learning for Visual Tracking,IDSDL-VT)。首先,本文构建了一种增量判别性结构化字典学习(Incremental Discriminative Structured Dictionary Learning,IDSDL)算法。该算法构建与正负样本图像块对应的判别性字典,并通过局部更新(Local Update,LU)机制实现对字典的在线逐列更新,这填补了通过稀疏表示构建分类模型的跟踪方法未使用结构化字典学习的空白。然后,本文采用学习后的字典以Elastic Net为正则项进行稀疏表示,将表示系数作为特征通过K-组合投票(K-Combined Voting,KCV)方式进行分类器的训练与判决,选取置信度投票最大值对应的样本作为当前帧的跟踪结果。上述过程随着时间推移重复进行,从而实现了字典的增量化更新和目标的连续化跟踪。该跟踪方法在基准集合进行了测评实验,在其中14段序列实现了较为稳定和鲁棒的跟踪,13段序列平均中心误差在10像素以下,平均覆盖率综合达到了67.3%,其中3段测试序列对应的平均中心误差和平均覆盖率在24种跟踪方法测评对比中排名最优。实验的主客观分析结果表明,IDSDL-VT有效解决了论文所提生成性跟踪方法的问题;与经典的在线目标跟踪方法相比,在跟踪精度和鲁棒性方面均取得更为令人满意的表现。(3)为了解决本文所提判别性跟踪方法存在的单次迭代字典学习效果差的问题,同时提高其应用普适性,结合在生成性和判别性跟踪方法方面所取得的成果,本文提出了一种混合性在线跟踪该方法:基于增量选择性稀疏模型和残差加权在线字典学习的在线跟踪方法。该方法首先将选择性稀疏模型、字典学习、分类模型训练与更新进行整合,构建了混合增量稀疏模型(Hybrid Incremental Sparse Model,HISM),将目标跟踪处理流程切分为生成性建模和判别性建模两部分。在生成性建模部分,采用基于稀疏表示的增量时空贡献一致性排序(Sparsity-based Spatial-temporal Contribution Ranking,ISSt CR)的方法,进行关键块的选取,用于代表目标区域;构建了基于帧间索引差的数值调整(Number Adjustment based on Inter-frame Indices Difference,NAIID)方法实现关键块数量的自适应调整。在判别性建模部分,采用了基于关键块的字典学习和线性分类器(组)相结合的方法对候选样本进行判定,构建了残差加权在线字典学习(Residue-weighted Online Dictionary Learning,RODL)与残差加权增量判别性结构化字典学习(Residue-weighted Incremental Discriminative Structured Dictionary Learning,RIDSDL)算法,并给出了两种字典更新方式及其证明。与经典的(在线)字典学习和判别性字典学习方法的实验结果进行对比标明,新提出的加权在线字典学习方法,在迭代次数保持不变的情况下,进一步提高训练信号的信噪比,对人脸分类效果良好。该跟踪方法在基准集合进行了测评实验,与前两章跟踪结果相比,全部序列实现了相对较为稳定和鲁棒的跟踪,13段序列平均中心误差在10像素以下,平均覆盖率综合达到了71.6%,其中1段测试序列对应的平均中心误差和平均覆盖率在24种跟踪方法测评对比中排名最优。实验的主客观分析结果表明,尽管本文所提混合性方法在部分测试序列的准确性有所下降,但普适性更强,在各段测试序列的综合性表现更好;与经典的在线跟踪方法相比,同样能够获得良好的主客观评价。