论文部分内容阅读
人脸信息的获取一直是计算机视觉领域的重要研究课题,随着人工智能技术的高速发展,人脸信息作为一种重要的身份信息被广泛应用于身份认证、人机交互、公共安全等领域中。人脸检测是人脸信息获取的首要环节也是关键环节,在人脸相关应用中(如人脸识别、面部表情识别、人脸超分辨率重构、人脸姿态矫正等),人脸检测的效果将直接影响后续相关技术的应用。因此,人脸检测的重要性不言而喻。在现有的主流研究工作中,人脸检测主要实现了人脸与背景的分类以及人脸边界框的定位,即在待检测图像中检测出人脸并用边界框定位。然而在检测到的人脸边界框中,人脸信息往往只占其中的一部分,边界框内的背景图像带来了冗余的信息,因此存在提取的人脸特征背景噪声较大、空间量化粗糙、提取特征维度较大等问题,导致一些实用的人脸相关技术应用效果有限。针对上述问题,本文聚焦于通过结合人脸检测与分割于同一网络架构来获取更为精准的人脸信息,提出一种基于深度学习的人脸检测与分割方法。论文的主要研究内容包括:1)构建了一个具有人脸检测与分割标注的新数据集,从FDDB以及ChokePoint数据集中随机选取5115张图片,然后通过VGG Image Annotator(VIA)图像标注工具对其进行分割标注,可用于人脸检测与分割模型的训练。2)针对现有主流的人脸检测算法仅实现边界框的定位,从而导致获取的人脸特征具有背景噪声及检测精度不理想的问题,提出一种基于Mask R-CNN的人脸检测与分割方法。方法通过ResNet-101结合RPN网络生成候选区域,再利用RoIAlign算法实现像素级的特征点定位以提高特征点定位精度;最后通过全卷积网络生成相应的人脸二值掩码,实现图像中人脸信息与背景的分割。该方法在传统的人脸检测网络中引入分割操作,将人脸检测与分割任务融合于同一网络架构,实现了端对端的人脸检测与分割效果。3)针对基于Mask R-CNN的人脸检测与分割方法在面对多目标人脸检测及小尺度人脸检测任务时检测精度较低的问题,提出一种基于广义交并比的多尺度特征融合人脸检测与分割方法(MG-Mask)。该方法首先在边界框回归损失中采用广义交并比函数替代传统的smooth L1函数,以提高多目标人脸的检测精度;其次在FPN网络采用了多尺度特征融合策略,以提高小尺度人脸检测性能。在通用人脸数据集FDDB、AFW以及WIDER FACE的实验结果证明,MG-Mask模型能够有效提高多目标人脸检测及小尺度人脸检测性能。