论文部分内容阅读
近年来,随着人工智能的发展,人脸检测作为计算机视觉领域一个重要分支也相应成为热门的研究课题之一,现实中许多人脸检测的场景随处可见,例如手机人脸解锁、人脸支付、车站安检等。目前,国内外提出的许多人脸检测方法在一定约束条件下已达到较高的检测水平,一般这些方法要求输入的人脸图像背景简单且以正面人脸为主。然而,在现实的自然场景中,人脸尺度过小,人脸姿态扭曲,光照强度不同,外物遮挡,人脸图像模糊等因素导致上述方法最终检测精度下降,漏检率偏高。针对上述问题,本文通过分析人脸检测的基本流程,研究了经典目标检测算法Faster-RCNN,并结合自然场景人脸检测这一特定的问题,对Faster-RCNN做出了改进,提高了自然场景条件下人脸检测的精度,降低了漏检率。本文主要工作如下:(1)针对原始Faster-RCNN的主干网络VGG16对于深层次图像特征提取不够充分,特别对于人脸一些重要的细粒度特征,会出现人脸部分重要特征丢失的问题。对此,本文采用了更深层的残差网络ResNet-50来提取人脸特征,另外,为了同时考虑到低层特征和高层特征的相关性,融合网络的上下文信息,使得网络能够检测到不同尺度的人脸,本文采用了多尺度特征图融合的策略来融合不同卷积层的特征图。实验在人脸公开数据集WIDERFACE上进行,且在FDDB人脸标准测试集上进行了测试,结果表明,当采用了更深的残差网络ResNet-50以及将不同卷积层的特征图融合后,模型的性能得到了明显的提升。(2)为了充分检测到小尺度人脸,本文在Faster-RCNN的RPN网络中设计了更精细的Anchor。另外,当图像中人脸的姿态不同、人脸被部分遮挡、多个人脸重叠、图像曝光度不足时,会导致网络提取的特征不足以检测到这些困难样本。对此,本文加入了在线难例挖掘算法(OHEM)将训练时遇到的难例样本再次集中地放入网络中训练,使得网络训练更加充分。同时,为了在一定程度上解决多个人脸重叠导致的漏检问题,加入了软非极大值抑制算法(Soft-NMS)。此外,引入了残差注意力机制使得模型更加关注图像中的人脸特征而忽视噪声。实验在人脸公开数据集WIDERFACE上进行,并在其测试集上进行测试,实验表明,改进后的网络模型能更好的适应自然场景条件下的人脸检测,检测的平均精度和召回率都有一定的提高。