论文部分内容阅读
本文研究的物体检测是计算机视觉领域一个非常具有挑战性的课题,即从真实世界的图像中识别某类物体并在混乱的图像背景上定位该物体。这是人眼视觉系统的核心能力之一,但计算机视觉系统目前还远未达到接近该层级的效果。该课题的主要难点在于寻找一种有效的物体表示方式,一方面必须容忍同类物体不同个体之间的类内变化,另一方面又能够区分不同类别物体的类间变化,同时还需要鲁棒的处理混乱背景、光照变化以及部分遮挡等问题。本文回顾了物体检测方法的研究现状,分析和总结了常用的物体模型和特征,从简单局部特征和基于特征的学习算法两个层面,研究了如何构建准确的、鲁棒的物体模型。主要的研究成果和创新点有如下两个方面:在特征层面,本文提出了一种基于表形的局部特征——分散矩形特征,和一种基于形状的局部特征——霍夫变换线段(组)。分散矩形特征是类Haar特征的一种变体。和类Haar特征一样,它也是一种基于矩形模板的简单特征,但模板内的矩形不需要在水平或垂直方向上相邻对齐,因而不仅能够表示任意的方位信息,而且在几何关系上能够表示错切、分离和重叠的形状信息,使得分散矩形特征能够更加灵活的表示物体部分,具有更好的表示能力。同时,可以利用积分图,在常数时间内计算图像窗口上任意位置任意尺寸的分散矩形特征值,解决了由于缺少相邻对齐约束后带来的大量特征的计算量问题。另外,采用构造方法,严格的证明了任意一个非退化的分散矩形特征与满足一定几何约束关系的多个类Haar特征之间的等价性。该等价性说明一个非退化的分散矩形特征所包含的物体部分的信息等效于多个类Haar特征所包含的信息的综合,因此该特征更加鲁棒。在MIT和cMU人脸测试集上的对比实验结果显示,基于分散矩形特征的分类器性能优于类Haar特征分类器。霍夫变换线段(组)是受线条画启发而提出的一种简单的形状特征。该特征不是由其两个端点表示,而是通过其法向与横轴的夹角角度、到坐标原点的垂直距离、线段中心到垂线的距离以及线段长度所组成的四元组表示。该四元组表示形式不仅能够唯一的确定任意线段,而且能够很方便的处理缩放、旋转和平移变换。给定以物体中心为原点的局部坐标系,霍夫变换线段与物体中心之间的几何关系被隐含于四元组中,成为一个紧凑的隐式形状模型,后者在物体检测研究中已经被证明为一个有效的模型。相连的霍夫变换线段构成霍夫变换线段组,通过引入线段之间的局部几何信息进一步增强特征的区分能力。霍夫变换线段(组)之间的相似度由四元组表示空间中的一个加权欧氏距离衡量。通过调整四元组元素相应的权重,该距离能较好的容忍不可靠的边缘检测所引起的噪音问题,从而能够用来从训练样本中选取有区分能力的霍夫变换线段组,建立该类别物体码表。通过形状匹配实现的物体检测实验表明形状确实是定义物体类别的重要特征,也能胜任物体检测任务。在学习算法层面,本文提出了一种AdaBoost算法变体——双阈值AdaBoost算法。该变体与原来的算法使用同样的框架,但使用了具有两个阈值的弱假设,其核心思想是选择分类性能更好的弱假设可以使学习到的强假设更加鲁棒和高效。双阈值弱假设在不退化为单阈值弱假设的情况下,通过对样本在特征值空间更为精细的划分,确保分类错误比单阈值弱假设更小。为了快速确定两个阈值的最优值,本文相应的提出了一个双阈值弱学习算法。该弱学习算法将确定闽值问题转换为寻找最大和连续子序列问题,后者可以采用线性的动态规划算法解决。对类Haar特征和分散矩形特征的学习结果表明,在同样的训练性能要求下,该变体收敛速度更快,生成的检测器具有更少的层次,使用更少的特征。在MIT和CMU人脸测试集上的检测实验结果显示,该变体学习的分类器性能总体上优于原来的AdaBoost算法。除以上成果外,本文在人脸检测实验过程中,构建了一个分辨率为19×19像素的正面人脸训练集,提出了一个针对MIT和CMU人脸测试集的检测标准。该标准利用测试集所提供的关于入脸五官的真实位置信息,定义了最小入脸矩形和正确检测可能的最大分布区域,可以作为一个客观严格的检测标准。