论文部分内容阅读
在图像(或视频帧)中检测与识别目标是计算机视觉研究要解决的核心问题。尽管已有许多目标检测与识别方法,现有的工作依然不能很好的应用于实践,存在的主要限制有:(1)通常需要大量的样本去训练分类器,然后用分类器在待检测图像中识别或定位目标所在的位置;(2)在检测目标方法上,往往采用滑动窗口这一复杂度较高的方式。然而在现实应用中,人们往往难以针对某一具体的目标去找到成千上万的样本,通常仅有少量样本(通常为几个或几十个),在这样的情况下,是难以用训练分类器的方式来进行目标识别的;另外,在图像中定位目标并不一定需要通过耗时的滑动窗口来实现。基于上述认识,本工作针对仅有少量样本的应用场景,提出了如何有效地组织样本进行目标识别,以及如何高效地检测目标等系列方法。本文的主要贡献为:(1)提出了一种局部自适应方向特征(简称为LAS),该特征能够较好的反映目标的局部特性。基于LAS特征,采用构造投票空间的方式,对样本的每个位置的LAS特征的容忍度进行训练;在目标识别阶段,通过已经训练好的投票空间,用逐像素投票的策略来计算相似度。进一步,采用滑动窗口的方法定位待测图像中目标所在的位置。实验表明,虽然只有少量样本,本方法在识别上不仅比同样是少样本的模板匹配算法好,甚至在准确率上超过了部分需要大量样本训练的目标识别算法,充分说明了本方法所具有的实用性和有效性。(2)提出了基于少样本的快速目标检测算法。本章算法采用了新的检测策略,即基于图像块的检测方式,而不是滑动窗口,这使得定位目标算法的复杂度降低了两个数量级。此外假设投票空间中的每一个特征位置服从高斯分布,采用了参数估计的方式计算了该分布的参数,实现了投票空间中每个格子的分布自适应,从而在利用投票空间检测目标时,更加有效地描述局部特征的变化。实验表明,本方法能够快速而准确地进行目标检测。(3)提出了用二维特征构造二维反向索引表进行多类别目标检测的方法。首先对每个类别的样本计算局部梯度强度和局部梯度方向来为二维特征,然后,将该二维特征分别进行二进制编码,利用二进制编码的结果构造二维索引,每个索引分别对应一系列的投票位置,并且将多类别标签也放入到二维索引表当中。实验表明,本方法能够准确且实时地进行多类别目标检测。(4)提出了基于多自编码网络实现前景目标检测的方法。首先针对背景变化不大的情况,构建第一个自编码网络,该网络基于少量视频帧提取出没有前景目标的背景图片,然后将这些背景图像输入到第二个自编码网络中,该网络实现对背景的学习。针对背景变化比较剧烈的情况,提出了自适应的背景容忍度模型的学习算法,此时,将两个自编码网络构建为多个隐层的自编码网络同时将背景的容忍度指也作为参数放入第一个自编码网络的目标函数中,从而学习到了自适应容忍度的动态背景模型。同时,还针对深度自编码网络提出了在线学习算法,通过构造目标函数的敏感度代价函数来更新和替换相应的权重,实现了快速的在线学习。实验结果证明了本方法的有效性。