论文部分内容阅读
随着人工智能浪潮的到来,深度学习作为表示学习的一个重要分支,其发展大幅提高了视觉识别任务的最终性能。尽管有着大量的理论、学术研究,但在面对复杂应用环境以及计算资源相对匮乏的设备平台时,视觉识别模型的表现仍不如人意。作为视觉识别任务的核心问题,目标检测和分割任务的发展始终在模型准确率与计算效率的取舍中艰难前进。本文的核心思想是利用表示学习相关理论,在保证视觉识别任务性能的前提下,能够设计出低延迟、低功耗的视觉识别模型。本文的主要工作如下:对目前表示学习中在视觉识别任务起重要作用的深度卷积神经网络进行梳理,介绍具有代表性的深度卷积神经网络和轻量级卷积神经网络。并对表示学习在视觉识别任务中的相关工作从多尺度特征学习、上下文特征学习以及关系网络三个方面进行概要总结。其中,多尺度特征学习从图像金字塔、预测金字塔、特征融合以及特征金字塔四个角度进行分析;上下文特征学习通过全局上下文特征学习和局部上下文特征学习进行阐述;并对关系网络在视觉识别任务上的应用从图卷积神经网络和自注意力机制两个方面进行整理。针对医院现有医疗设备计算资源相对匮乏的问题,采用上下文特征编码病灶周围区域的信息,再通过自注意力机制选取更具辨别性的特征。将上下文模块与注意力机制联合,构造上下文自注意力卷积模块,以其为基础搭建轻量级卷积神经网络,并将其应用于皮肤病灶分割任务中。本文所提出的上下文自注意力皮肤病分割网络在模型参数仅有0.5 M,计算代价8G FLOPS的前提下,能够在ISBI 2017数据集上能够实现80.9%平均交并比的分割精度。同时,算法在分辨率大小为768×1024图像上能够达到20 FPS的推断速度。实验结果表明,上下文自注意力皮肤病分割网络提高了皮肤病灶检测的研究效率和实用价值。针对人脸识别任务,采用单阶段目标检测框架提取多尺度特征。为解决卷积神经网络浅层特征中语义信息较少的问题,使用空洞卷积和金字塔架构构造轻量级特征提高模块,在尽可能减少计算代价的前提下,提高模型对浅层特征中语义信息的辨别能力。同时,针对模型召回率较低的问题,引入锚点致密策略。算法在PASCAL Face、AFW、FDDB以及WIDER FACE多个数据集上进行测试,在实现高精度的同时,能够在分辨率大小为1024×1024的图像上达到64 FPS的推断速度。并在FDDB人脸检测数据集上取得了超越两阶段检测算法Faster RCNN的检测效果。通过多个实验进行验证,本文所提出的算法能够显著增强人脸检测模型的性能和计算效率。在本文中,我们采用上下文特征学习和多尺度特征学习进行特征提取操作,并结合关系网络中的注意力机制改善卷积算子的弊端,通过设计符合具体任务的卷积神经网络架构,提出用于皮肤病灶检测任务和人脸识别任务的相关算法。我们所提出的算法在具备高精度的同时,能够实现低延迟的识别效果,这对于推动视觉识别模型最终的落地与应用具有一定的研究意义。