论文部分内容阅读
目标检测任务将目标的分割与识别合二为一,简单地说就是给定一段视频或者一张图片,指出其中的多个目标所属的类别并以包围盒的形式给出这些目标在图片中所处的位置和范围。
目标检测技术在很多领域有着及其广泛的研究和应用,如视频监控、军事目标检测等,目前学术界已经提出了很多的目标检测算法,取得了很大进展。近年来,深度学习发展极为迅猛,在计算机视觉等很多领域都取得了令人难以置信的突破,其中的一个典型代表就是基于卷积神经网络的Alex-net[20]在ImageNet上取得的重大成功。深度学习在目标检测与分割等方面也取得了很辉煌的成就,不少知名的解决方案脱颖而出,例如R-CNN系列[6][7][9]、SSD[11]、YOLO[10]、R-FCN[19]等,这些新的方法也获得了极其广泛的应用。但是由于应用场景的复杂性,会出现目标的尺度变化大、位移、形态变化、遮挡等各种问题,目标检测系统的准确性会受到极大的考验,这些问题也成为了目标检测算法研究领域亟待解决的难点问题。
本文的目的一方面在于对目标检测领域目前的发展情况和研究成果进行一些总结,尤其是深度学习在目标检测领域取得的一系列成果;另一方面也分析了目前目标检测存在的一些问题和难点,并提出一些新的方案,以提高目标检测算法的准确率。本文的主要研究工作如下:
(1)本文设计并实现了一种图像分类卷积特征的目标检测算法。使用Selective Search[1]等常规的Region Proposal算法提取可能包含目标的候选区域;然后采用迁移学习的思想,使用在图像分类数据上预训练得到的卷积特征提取网络(VGG[21]、GoogLeNet[22][23]等)提取卷积特征,进行候选区域的分类和边框的回归。这种方法大大提高了网络的训练效率,同时需要的训练数据更少了,在本文第三章所述的实验环境下,使用VOC2007数据集作为训练数据,训练基于VGG16的网络只需要30分钟左右,同时在测试精度上也没有太大的损失,使用设计更优良的特征提取网络甚至可以取得比Fast R-CNN更好的结果。当使用GoogLeNet或50层的ResNet作为特征提取网络时,mAP为0.67左右。
(2)本文认为在不同层次和尺度的卷积特征上进行目标的检测能够有效地提高检测算法检测不同尺度的目标的能力,所以设计并实现了一种多层次的端到端的目标检测算法。受SSD[11]和Faster R-CNN[9]的启发,本文在Faster R-CNN的基础上进行了改进,在不同层次和不同尺度的卷积特征上进行ROI的预测和更精确的分类回归,使得算法有了更好的多尺度性,在使用VOC2007数据集进行训练和测试时,检测精度mAP达到了0.69。
(3)本文结合一些学者为获取旋转不变性特征而提出的可变形卷积网络[24]和为解决目标遮挡问题而提出的Soft-NMS[25]算法,对目标检测算法进行改进,使得目标检测算法获得了较好的多尺度性和旋转不变性,并且增强了处理目标遮挡的能力,在公开测试数据集上的检测精度获得了一定的改善。使用VOC07+12数据集进行训练,基于VGG16和ResNet_v1_101的两种改进后的FasterR-CNN的测试精度mAP分别达到了0.74和0.82,同时在COCO数据集上的测试结果也有提高。
目标检测技术在很多领域有着及其广泛的研究和应用,如视频监控、军事目标检测等,目前学术界已经提出了很多的目标检测算法,取得了很大进展。近年来,深度学习发展极为迅猛,在计算机视觉等很多领域都取得了令人难以置信的突破,其中的一个典型代表就是基于卷积神经网络的Alex-net[20]在ImageNet上取得的重大成功。深度学习在目标检测与分割等方面也取得了很辉煌的成就,不少知名的解决方案脱颖而出,例如R-CNN系列[6][7][9]、SSD[11]、YOLO[10]、R-FCN[19]等,这些新的方法也获得了极其广泛的应用。但是由于应用场景的复杂性,会出现目标的尺度变化大、位移、形态变化、遮挡等各种问题,目标检测系统的准确性会受到极大的考验,这些问题也成为了目标检测算法研究领域亟待解决的难点问题。
本文的目的一方面在于对目标检测领域目前的发展情况和研究成果进行一些总结,尤其是深度学习在目标检测领域取得的一系列成果;另一方面也分析了目前目标检测存在的一些问题和难点,并提出一些新的方案,以提高目标检测算法的准确率。本文的主要研究工作如下:
(1)本文设计并实现了一种图像分类卷积特征的目标检测算法。使用Selective Search[1]等常规的Region Proposal算法提取可能包含目标的候选区域;然后采用迁移学习的思想,使用在图像分类数据上预训练得到的卷积特征提取网络(VGG[21]、GoogLeNet[22][23]等)提取卷积特征,进行候选区域的分类和边框的回归。这种方法大大提高了网络的训练效率,同时需要的训练数据更少了,在本文第三章所述的实验环境下,使用VOC2007数据集作为训练数据,训练基于VGG16的网络只需要30分钟左右,同时在测试精度上也没有太大的损失,使用设计更优良的特征提取网络甚至可以取得比Fast R-CNN更好的结果。当使用GoogLeNet或50层的ResNet作为特征提取网络时,mAP为0.67左右。
(2)本文认为在不同层次和尺度的卷积特征上进行目标的检测能够有效地提高检测算法检测不同尺度的目标的能力,所以设计并实现了一种多层次的端到端的目标检测算法。受SSD[11]和Faster R-CNN[9]的启发,本文在Faster R-CNN的基础上进行了改进,在不同层次和不同尺度的卷积特征上进行ROI的预测和更精确的分类回归,使得算法有了更好的多尺度性,在使用VOC2007数据集进行训练和测试时,检测精度mAP达到了0.69。
(3)本文结合一些学者为获取旋转不变性特征而提出的可变形卷积网络[24]和为解决目标遮挡问题而提出的Soft-NMS[25]算法,对目标检测算法进行改进,使得目标检测算法获得了较好的多尺度性和旋转不变性,并且增强了处理目标遮挡的能力,在公开测试数据集上的检测精度获得了一定的改善。使用VOC07+12数据集进行训练,基于VGG16和ResNet_v1_101的两种改进后的FasterR-CNN的测试精度mAP分别达到了0.74和0.82,同时在COCO数据集上的测试结果也有提高。