无约束场景下人脸检测方法研究与轻量级实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:dolan525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是近几十年全球瞩目的焦点,基于卷积神经网络的人脸检测研究逐渐取代人工模板传统方法,获得了更全面、充分地发展。基于深度神经网络的人脸检测方法倡导自主习得面部特征,按照是否存在区域提议过程可大致划分为两步法和一步法。两步法只有在生成了候选区域后才进行分类和回归,是粗到精的过程,检测精度高,更适用于多分类场景,如植物、汽车等。人脸检测是典型的二分类问题,且在实际应用中对实时性有一定要求,而两步法建模相对复杂且运行效率相对较低。一步法的系统部署直观,一步完成预测,检测速度快,在准确率上仍有较大提升空间,具有较高的科研价值。因此,本文将在一步法的基础上,针对人脸检测研究在无约束场景下面部特征提取和利用不充分、实时性与准确率难以权衡等问题,设计专门的模块、策略对算法进行改进。以下是本文的主要创新点:1.为应对面部特征提取不充分、利用不充分的问题,提出了基于上下文推理的人脸检测方法。该方法通过低层级特征金字塔网络加权地融合不同层的特征,提取更具表达力的描述信息,并在预测环节采用上下文辅助预测模块扩充子网络以加深、加宽网络模型,较好地弥补了未被充分提取的面部特征;引入自适应锚点取样的数据增强方式和多尺度训练方法,增强了模型对尺度的适应力,进而提高对面部特征的利用率。经实验验证,基于上下文推理的人脸检测方法在WIDER FACE、FDDB这两个权威基准上的性能相较于同等级模型大小的已有方法均有较大提升。2.鉴于上述方法中仍存在无约束人脸的面部特征提取模式单一的问题,提出了基于特征强化的渐进式级联人脸检测方法。在关注上下文线索的基础上,该方法着重挖掘当前层特征,利用特征强化模块实现双分支架构,并相应地设计出渐进式损失函数以匹配各分支、层级特征图的渐进学习能力,丰富了面部特征的提取模式。该方法在面向小尺寸锚点密集采样所导致的样本分布失常的问题时,应用Max-Both-Out策略,并搭建迭代式级联结构,设置子检测器的交并比(Io U,Intersection over Union)阈值逐步递增,为各阶段匹配更合适的样本分布。经实验验证,基于特征强化的渐进式级联人脸检测方法在WIDER FACE、FDDB这两个权威基准上的准确率均超越了上述方法,性能又有了显著的改善。3.以工业级实时的算法模型为出发点,提出了基于任务指导的轻量级人脸检测方法。由于实时性与精确度难以两全,在两者之间权衡,一方面通过轻量级骨干网络在有限尺度空间内尽量保留原有特征,另一方面引入关联锚点,以半监督方式生成人脸周边的头部、身体信息,辅助目标人脸的检测。该方法可缓解不同层特征映射之间的相互干扰,利用特征整合模块阻止高层语义对低层细节的破坏,并精简计算;在推理时应用任务指导型策略,将分类和回归分而治之,避免判别力不足的低层特征映射参与位置回归,实现算法模型的高效化。经实验验证,基于任务指导的轻量级人脸检测方法在WIDER FACE、FDDB这两个权威基准上,尤其在检测中、低难度的人脸时,均达到了目前的先进水平。本文所述算法的推理速度均已达到实时性、甚至工业级实时性的标准,在全文的最后指出了上述这些算法的不足之处,并列出了可供进一步深化的方向。
其他文献
在稀相气力输送传输中,颗粒经过弯管之后,由于离心力的作用在弯管后的下游的管道中较为集中,形成相对致密的相结构,这种现象被称为绳索(Roping)现象。虽然国内外学者对绳索现象进行过一定的研究,然而对于绳索现象的扩散机理研究仍显不足。为了研究稀相气力输送系统中颗粒经过弯管后的扩散情况,本文利用高清摄像机获得弯管后(R/D=1.3,R是弯曲半径100mm,D是管道直径75mm)不同高度的截面上颗粒(粒
视频拼接技术是一种利用多个小视场视频构建大视场视频的技术。视频拼接技术是图像拼接技术的延伸,但不同于图像拼接。随着信息科学与计算机技术的发展,视频拼接技术也得到了越来越广泛的应用。本文首先介绍了视频拼接的基本流程,主要包括视频帧解码,帧预处理,帧配准对齐和视频帧图像融合。随后介绍了视频拼接过程中所涉及的主要技术,主要包括摄像机成像模型,广角和鱼眼镜头畸变矫正算法,图像球柱面映射和双线性插值等。随后
随着航天器、飞机、船舶、雷达等大型复杂产品向着智能化、精密化和光机电一体化的方向发展,产品零件结构越来越复杂。为了提升生产效率及产品竞争力,并迎合制造产业的全球化和网络化,产品的虚拟制造技术就显得日益重要。虚拟制造以计算机仿真技术和三维建模技术为支持,利用产品的虚拟模型,在产品的设计环节对产品进行全生命周期仿真,对产品的整体性能、可制造性进行评价,从而提高预测和决策能力,使产品的各方面性能达到均衡
随着大数据、云计算的快速发展,数据带来价值的同时,也增加了个人信息泄露的风险。随着个人信息的泄露,用户可能遭受垃圾短信的骚扰,甚至造成严重的经济损失。在用户从服务器获取信息的同时,保护个人隐私是必不可少的一步。私密信息检索是保护用户信息的一种手段,在用户下载的比特中混有一些无用比特,以达到混淆服务器的目的,从而保护用户真正的需求比特的序号。在实现保护用户隐私的同时,私密信息检索技术需要考虑实现方案
数字图像相关方法(Digital Image Correlation,DIC)是一种非接触式的全场变形测量方法,有着操作较便捷、对测试环境要求较低等优点,在航空航天、土木机械、生物医学等各个领域中得到了广泛的应用。近年来,研究人员对于高精度、实时测量的要求逐步提高,实验数据量随之增大。这不仅对测量硬件提出了很高的需求,对处理图像数据的软件算法也提出了新的挑战。如何有效地降低单幅图像数据量、提升DI
近年来,图像分类在卫星图像检测、医学图像处理、地貌图像识别、人脸识别、环境监测等方面的应用场景十分广阔。同时,图像分类算法在硬件终端中应用与部署的需求与日俱增,如何将这些算法移植到硬件终端并进行性能上的优化成为图像分类研究的热点与难点。为此,本文提出了一种基于FPGA的图像分类算法,并在Xilinx的Zynq-7000系列平台上对该算法进行移植和加速,以验证该算法的有效性。本文的主要内容包括:首先
混凝土3D打印技术具有构件设计自由、施工高效、节省劳动力等特点,引发建筑领域越来越多的关注,成为建筑工业化的重要发展方向之一。目前该技术已经得到初步的工程应用。然而粉床3D打印技术的基础研究不够完善,缺乏设计粉床3D打印材料的系统方法,从而限制了该技术的进一步发展。因此,本文建立了表征液体和粉体相互作用结果的指标,探究了相关影响因素,并揭示了液体在粉床中的渗透过程及机制。本文首先采用单向渗透的实验
物联网技术一直被视为信息技术领域的第三次浪潮,射频识别技术作为物联网的关键技术得到了广泛的研究。但传统射频识别(RFID)系统中必须配备专用阅读器,并通过专用射频信号进行通信,导致系统通信距离短,且无法与其他网络直接相连。对此学术界在近几年提出了一些新型反向散射(Backscatter)技术,通过复用环境中的已有的射频信号作为载波信号来提升RFID系统性能。与此同时,在定位技术领域,学术界新提出的
城市用地作为用于城市建设和满足城市机能运转所需要的空间,在城市计算中属于重要的基础性数据。从微观角度对城市用地功能进行分类,可以辅助城市规划中的控制性详细规划和修建性详细规划工作的展开。然而,目前的城市用地功能分类仍然面临许多困难。城市用地的概念定义和研究角度标准不一,适合城市用地功能分类的数据源较少,城市之间的差异性对算法的泛化性能提出了挑战。本文的研究目标,是通过采集开源地理信息数据,对建筑级
随着互联网技术的发展以及电子商务平台的推广,越来越多的用户选择网上购物,线上消费,因此针对消费者对商品或者服务的评价的情感分析便成为当前的一个研究热点。在深度学习得到广泛应用的背景下,作为图像领域的标配网络——卷积神经网络,由于其在自然语言处理领域不能处理长序列文本以及存在信息丢失的问题,使得卷积神经网络在文本情感分析领域总是和时序网络结合使用。本文分别从改进卷积神经网络结构和从文本情感构成两个思