论文部分内容阅读
人脸检测广泛应用于视觉目标检测,是入脸分析、定位以及人脸识别的主要组成成分之一,在众多的应用中(例如安全、新通信接口、生物鉴定和其他方面中)占有主导地位。
给出一幅图像,人脸检测用于寻求图像中是否存在人脸,如果存在人脸,返回人脸的位置及其内容。
自动人脸检测是一个相对较复杂的问题,需要检测一幅图像或者视频序列中的一个或者很多人脸,实际上困难在于人脸是非刚体目标,对于两个不同的入,人脸外貌有可能会变化,甚至同一个人的两幅照片都有可能不同,取决于光照条件、目标情绪状态以及姿势,这就是最近几十年为什么会有如此多的方法用来研究人脸检测。对主要的方法我们做了整体概括,最终致力于研究探测器,它在取得高检测率的同时,处理图像的速度也是非常之快。每一种方法都是在特定背景下发展应用起来的,可以把所有的方法主要归纳成两种:基于图像的方法和基于特征的方法。第一种方法利用分类器扫描整幅图像,此分类器利用给定的样本集静态训练;另外一种方法主要检测人脸特征比如眼睛、鼻子等。
论文中,主要研究了介于两种方法(即基于图像的方法和基于特征的方法)的中间系统,认为此中间系统是基于图像的方法是由于它利用学习算法将给定的正负样本来训练分类器,这些样本是精心挑选好的。而认为此系统基于特征的原因是由于中间系统的学习算法所选择的特征与人脸特定特征是直接相关的(眼睛位置,鼻梁对照)。
每个输入图像通过四个阶段的检测,每个检测阶段都会形成假设,并在进一步的检测中寻找证据使得假设成立。
假设就相当于人脸候选区域,证据本质上就是特定的图像特征,如果此假设不成立就退出检测,成立则进入下一个检测阶段形成新的假设,以此类推,直到最终确定入脸目标。这样功能模块遵循着由粗到细的政策。第一阶段形成的假设可以认为是最粗略的估计,接下来的几个阶段是先前阶段的细化。
人脸检测的四个阶段分别是:(1)肤色区域提取,(2)清除肤色区域,(3)候选目标区域的选择,(4)人脸确认。
由于肤色颜色的外表取决于光线条件,这就是为什么在准备阶段的第一步,是归一化图像中的颜色表面。程序由高于luma5%的相关像素组成(非gamma-corrected亮度),如果那些像素的数量非常大(大于100个),就作为基准白色。为了使这些基准白色像素值减低至灰度值255,需要调整一幅彩色图像的红、绿、蓝三种组成成分。如果检测到的基准白色的像素数量没有足够大,彩色组成成分就不会改变。
人类肤色拥有自己独特的色彩分布,这和大部分的非人脸目标都是不同的。这就是为什么人类肤色可以用来过滤输入图像以获得人脸候选目标区域。为了实现过滤过程,需要转换图像的彩色空间。这个阶段的目的是为了减少搜索区域,搜索的判断是基于这样一个事实:人脸通常存在于肤色区域。像素水平的分割利用YCbCr彩色空间坐标系统完成肤色区域提取。在YCbCr彩色空间中,Y分量代表了亮度信息,Cb和Cr分量包含着色度信息。因此可以容易地确定亮度信息。既然原始图像在RGB彩色空间,为了获得YCbCr空间信息必须做一定的转换。在下一阶段的进一步分析之前,转换后得到的二进制图像受支配于简单的间隙填充和去除孤立像素点的过程。
为了确认人脸的存在,我们必须扫面整幅图像以确定肤色区域并去除不必要的像素。为了减小检测区域,我们需要确定可能存在的人脸区域,为此仅仅根据色度分量把像素分成肤色和非肤色两类。注意到假设我们用灰度图像替代彩色图像,这个预处理阶段并不在考虑范围之内,所以直接跳到分类阶段。
Boosting技术通过对训练样本的二次加权改善基础分类器的性能。另一方面,用于boosting的普通分类器是2X3的Harr-like新特征集,可以获得高检测率以及快速计算速率。利用这些新的特征集,训练时间明显大大缩短:比之前用的特征集快了整整5倍。
Adaboost选择小数量的关键性的特征,并结合到强分类器中。回顾上章,算法是自适应的,由于它能处理特别弱假设的出错率。论文的目的是增慢检测性能的同时减少计算时间,通过组成一个级联结构的分类器就可以达到这个目的。工作原理就是快速剔除大量的负窗口,同时保持几乎所有的正样本,利用更多的完全分类器分类相应多的子窗口。为了达到这个目的,级联结构的第一阶段只要包含较少的特征,这样可以获得高检测率(100%),但是误检率却高达(40%)。这种人脸检测方法显而易见是不可以接受的,但是成功利用这些越来越有区分行的检测阶段就可能达到快速检测的目标。
把这个级联结构和退化决策图表作比较,如果在某一阶段中,检测到子窗口有人脸,并且会在下个阶段中继续研究探讨。以此进行,直到在某一阶段子窗口检测为非人脸目标,或者所有阶段都分类成人脸目标。最后这种情况候选区域才会被考虑成正样本。
论文结合肤色检测方法和学习算法检测不同位置处的人脸,因此,输入应该是任意图像,而输出应该是同一幅图像,并且在任何人脸存在区域有一个矩形框区域。本中间系统直接检测图像以寻找任何有可能存在的正样本(即人脸),同时对图像的子窗口也采取相同的方式,如果图像部分中的矩形不是人脸,此次检测就会认为是负检测(即认定假设不成立,是非人脸)。
测试集中的图像尺寸是任意的,而正负训练样本集的图像尺寸必须是一致的。在不同光照条件下取得包含人脸的图像组成了正训练样本集,训练样本集实际上通过人为扫描正样本产生,并把图像缩放成一个标准尺寸,训练集中的负训练样本集由包含非人脸目标的图像组成,这些图像都是随意取得的。
除了检测准确率多少这个目标和任务外,第二个主要的目标是实时性能,响应时间取决于所要测试图像的尺寸,因此这样大小尺寸图像的实时时间就有可能是不相同的,较大图像尺寸的响应时间要比较小图像尺寸的响应时间长些从检测项目速度、训练项目速度以及写项目的所付出的努力几个方面来讲,论文的主要目的是:学习怎么样检测某些类型图像中的人脸,此中间系统的成功之处在于,它是其他系统的基础例如人脸识别和面部表情识别。
论文的贡献可以总结为以下几个方面:
1、论文中人脸检测方法结合基于图像的方法和基于特征的方法,充分利用了这两种方法的优点,减少了两种方法所具备的不足(结合其优势,摒弃
其劣势)。
2、描述了训练中所用到的特征集类型。这些特征(眼睛,鼻子等等)大大减低了训练时间,比用传统特的征集快了5倍。
3、建立了一个快速而且可靠的人脸检测方法,基于学习人脸,遮挡人脸(即有外物遮挡,比如眼镜,帽子之类的东西)和有一定角度的人脸(即人脸倾斜了一定角度)。
此系统并没有特殊的硬件,只有计算机和相机。在光照条件变化范围内,实验结果证明检测侧面和旋转人脸的有效性,检测率高达96%,误检率仅为6%。
这里并不存在“魔幻”的答案能简单解释,应用论研究的技术实时检测人脸所得到的成果。要定量理解这个问题,还需要做更多的努力和研究。从几千个正训练样本图像中区分出每个人脸并非一个简单的任务。即使一个尺寸足够大的训练样本集可以利用标记的人脸分类,那么这个过程究竟要多久?虽然我们已经可以降低训练时间,但是希望新的研究结果可以更好。