论文部分内容阅读
本论文主要是在保证卷积神经网络速度和精度的前提下,比较并找到用于目标检测的特征放大方法的最佳可能组合。卷积神经网络的作用是将图像缩小为更容易处理的形式,同时不会丢失影响预测准确度的重要特征。之所以选择神经网络是因为其能够对二维图像的内部特征进行表示。这使得模型能够从数据中的变体结构中学习到图像处理中的重要特征即位置和比例特征。目前有许多深度学习的框架,新的框架经常被提出用于特定的领域。以深度学习框架为基础是因为它允许我们在不深入了解底层算法细节的基础上能够简单、快速地构建深度学习模型。此外,它提供了一种清晰简洁的方法来定义模型,即使用预先构建和优化组件。这些优化组件能够优化性能,并行化流程,从而减少计算并能够自动计算梯度。此外,以上所提到的算法都是使用卷积神经网络提取图像特征。近年来,随着计算机视觉学科的发展,目标检测的发展越来越快。计算机技术中的目标检测技术已成为计算机视觉和图像处理的重要组成部分。目标检测是指从数字图像和视频中检测特定类的语义对象(如人、建筑物、汽车、树、自行车等)的实例。在现代卷积目标检测系统中,有许多方法可以用来权衡精度与速度和内存的关系。但在不同的目标探测器中,很难进行公平的比较。近年来,许多不同的成功开发系统被提出,但由于不同的基本特征提取器(如VGG、残差网络)、固定图像分辨率以及不同的开发环境(硬件和软件)的原因很难进行公平的比较。在本文中,我们关注三个特征提取器模型,如双线性插值,最近邻插值和像素洗牌插值,并找到最佳的比较结果。此外,目标检测算法的主要任务是通过绘制边界框来寻找感兴趣的目标。另外,在一个目标检测的例子中,不仅仅只绘制一个边界框。几个边界框可能表示一个图像中存在多个感兴趣的对象。目标检测的另一个基本问题是图像中多个尺度目标的检测。为了平衡分辨率与语义之间的冲突,提出了尺度转换模块。此外为了获得检测目标的高分辨率特征图和检测较大目标的最大接收域的特征图,分别使用了尺度转换层和池化层。然而,在浅层特征图上仍存在一些检测问题。小目标的背景和前景的区分仅仅使用浅层语义是不够的,需要更多的语义。为了在每个位置同时预测目标边界和目标得分,区域选取网络(RPN)即一个全卷积网络被使用。区域选取算法用于假设目标位置,并与检测网络共享完整的图像卷积特征。随着对象检测和语义分割发展的不断发展,实例分割出现了一些新的问题,并添加了一个用于预测对象掩模的新分支,该分支与现有用于边界框回归的分支并行。近年来,不同类型的目标检测模型被提出,如基于区域的卷积神经网络(R-CNN),Fast R-CNN,Faster R-CNN,单次检测器(SSD),You Only Look Once(YOLO)网络,基于区域全卷积网络(R-FCN),特征金字塔网络(FPN),规模可传输检测网络(STDN)和掩码R-CNN。特征金字塔网络(FPN)是一种将准确性和速度考虑在内的金字塔概念的特征提取器。它取代了像Faster R-CNN这样的探测器的特征提取器,生成了多个质量信息比用物体检测的常规特征金字塔更好特征图图层(多尺度特征图)。在快速R-CNN的扩展FPN的基础上,我们将检测模型修改为双线性插值,最近邻插值和像素洗牌插值,以比较基于边界框的平均精度(AP)的不同约束。我们还测量了所有这些模型的平均召回率(AR)。我们将epochs的时间从90K缩短到60K,以更快地训练数据集。所有模型都固定交并比>0.5并且每个图像的最大对象数设为100,但是对小特征目标,像素洗牌插值提高了所有模型的结果(0.215的平均精度)。我们还列出了COCO 2014 minval数据集的实验结果,并对实验结果进行比较。