论文部分内容阅读
随着计算机视觉技术的不断发展,人们对于图像处理的需求已经逐渐从拍摄、录影、播放等记录性需求,发展为分类、检测、识别、分割等智能化的需求。在这个基础上,大量的计算机视觉任务和功能被不断的提升和拓展。人脸作为近年来最为火热的计算机视觉研究对象,吸引了大量相关的研究和工作,包括:人脸检测、人脸识别、3D人脸重建、人脸合成、人脸跟踪等。其中,作为人脸相关应用的前置步骤,人脸检测更是其中最受重视的问题之一。尽管人脸的检测与分析等技术已经发展多年,但仍然是计算机视觉领域中一个极具挑战性的问题。其中最主要的原因在于,随着人脸相关的应用逐渐的从配合式的方案转移到非配合式的方案,从单一人脸的串行方案转移到高密度人脸的并行方案,对于人脸检测技术的要求也逐渐增加。受制于环境、光照、遮挡、姿态等因素,在高密度的场景下,人脸检测的难度大大的提升了。此外,移动便携设备对人脸检测的需求日趋增加,受制于移动便携设备计算资源的局限性,这就要求人脸检测模型尽可能的轻量化。相较于单一复杂网络,级联卷积神经网络能够高效的解决人脸检测正负样本不平衡问题,通过前期轻量化网络快速剔除背景,大大缩短检测用时。但其在高密度无约束场景下,其精度与单一复杂网络方法相比仍然存在较大的差距。因此,本文针对级联式人脸检测算法进行了深度的分析,提出了一种轻量级级联神经网络用于高密度人脸检测,显著提升了级联式人脸检测方法在高密度无约束场景下的性能。本文的主要工作包括以下三点:(1)考虑到轻量级的推荐网络表征能力的不足,存在大量的负样本不能被推荐网络剔除而进入到后续的提纯网络中,这大大制约了整个网络的运行速度。为此,本文提出了具有肤色敏感注意力的推荐网络,通过嵌入一个肤色敏感的像素注意力模块,增强推荐网络非人脸区域的剔除能力,在相同召回率下显著减少的候选框总数,从而提升整个级联网络的检测效率。(2)考虑到人脸检测过程中人脸分类与矩形框回归估计两个任务的相关性与差异性,若两个任务使用完全独立的特征,则无法利用任务之间的相关性优化提取的特征;若两个任务使用完全共享的特征,则无法达到两个任务各自的最佳性能。为此,本文提出了一种基于特征通道注意力的分离式多任务学习网络,为两个任务分别构建各自的注意力模块,让两个任务共享低级特征的同时抽取各自任务的高级特征,从而提升二者的性能。(3)考虑到高密度场景下包含了大量的小尺度人脸,这些小尺度人脸包含可检测信息较少,容易与背景发生混淆。而级联网络因其轻量化的特性,对小尺度人脸的表征能力不足,容易漏检。为此,本文提出了一个新的上下文信息增强结构模块,通过将其接入第一级推荐网络的末端,利用更多的上下文信息来更好的连接推荐网络和提纯网络,大大提升了级联式在高密度场景下的人脸检测性能。