论文部分内容阅读
物体检测长期以来都是计算机视觉中的基本问题之一,是进行场景理解,行为分析的基础,在视频监控、自动驾驶系统、机器人制造等问题中得到了广泛的应用。当前主流的检测算法采用基于滑动窗口的检测策略:从滑动窗口中提取特征,将检测问题转化为二值分类问题,即判断待检测目标是否存在于当前窗口中。由于物体的视觉特征会随着视角、光照、姿态等条件的变化而变化,给检测任务带来了很大的难度。大多数检测算法关注的是静态图像的检测,而特定场景下的物体检测又带来了新的挑战:首先,物体尺度范围非常大,滑动窗口大小的选择需要平衡,若窗口过大,则对小尺度目标容易产生漏检;若窗口过小,则容易产生虚检;其次,现实世界中的物体纷繁复杂,小尺度物体的视觉信息不足,极易产生漏检或者与背景发生混淆。训练时间也是检测模型的一大瓶颈,模型的泛化能力有限,针对特定场景训练的检测难以迁移到新的场景。针对上述问题,我们拟利用特定场景提供的上下文信息,采用场景相关特征提高检测精度,将可变形部件模型扩展到多尺度结构,使用概率图模型结合检测模型和场景相关特征进行联合估计。本文的主要研究工作如下:1.分析了特定场景下物体检测问题的难点:物体尺度变化及复杂背景带来的干扰。针对特定场景,在传统的基于局部图像信息的检测策略的基础上,采用基于上下文信息的检测思路,充分利用场景所提供的相关信息,提升检测精度。提出了将可变形部件模型作为局部检测器,使用概率图模型将局部检测器与场景相关的上下文特征结合的特定场景可变形部件模型。2.对物体检测加速算法进行了研究。通过性能分析发现,滤波器与图像特征图的卷积运算是检测过程中耗时最长的部分,即算法性能瓶颈所在。将基于频域加速的卷积加速算法应用于可变形部件模型上,分析了传统卷积算法和频域加速算法的时间复杂度,并进行了实现。3.在两个特定场景公共数据集CAVIAR和LISA上进行了实验,从检测准确率和检测算法效率两个角度对实验结果进行了分析,实验结果证明了使用场景相关信息能够提升检测准确率,同时频域卷积加速算法能够有效提升算法效率。