论文部分内容阅读
在图像信息快速膨胀的今天,如何快速有效的对静态图像进行标注,从静态图像中检测和定位出目标类物体,是机器学习和计算机视觉领域中最基础大挑战之一。目标检测技术是指从静态图像中检测和定位出一般目标类。这个问题在技术上很难有效实现,主要存在这几方面的原因,一是因为很多目标物体类可以在外观上有很大不同,这些变化不仅仅是由于光照和角度不同引起的,而且还取决于非刚性变形,不如同样是汽车,会有不同的形状变形。近几年来,目标检测技术的性能发展变得很缓慢并已经停滞不前。目前性能最好的目标检测系统都是一些很复杂的整合系统,这些系统结合从目标检测符提取的多种低层图像特征和从场景分类器获得的高层语境。由于这些系统很复杂并且只是基于SIFT或HOG这些手工设计的低层图像特征,所以不能够准确、快速地检测和定位目标类。在本论文中,我们深入分析了深度卷积神经网络在静态图像中目标检测技术研究中的应用。结合候选区域提取,模型微调和特征提取的概念,解决了深度卷积神经网络模型在与分类任务不同的数据集上的训练和优化问题,提出模型微调的方法,设计了三种不同深度,不同规模大小的卷积神经网络,先训练预训练模型,然后再进行模型微调,最后使用微调后的深度模型进行目标检测。本文中的目标检测算法能够准确检测图像中的一般目标类,可以准确地定位出一般目标类,这也间接证明了深度模型具有比较强的泛化能力。在目标检测过程中,将引入一些图像切割算法,如selective-search算法,应用于前期针对图像切割出很多图像子区域,在本文中称之为候选区域,这些候选区域中可能存在着需要检测的目标类。此外,这些识别出的候选区域会通过一个训练好的区域回归器,得到更接近真实物体所在的区域。我们针对深度模型的内部特征不透明,网络过于抽象,不利于研究人员对深度模型进行训练和优化的问题,本文设计了一种类似反卷积网络,将高层特征重构到RGB颜色空间,实现对深度卷积神经网络的可视化技术。我们从中了解到不同层所学习到的特征各有不同。所以提升深度模型性能的关键就是,如何有效的分析和利用深度卷积神经网络所提取的特征,分析出所需要优化的地方,然后再对深度卷积神经网络进行优化。我们基于以上针对基于深度学习的目标检测技术的研究,报名参与了2015年的Imagenet Large Scale Visual Recognition Challenge 的竞赛,在ILSVRC2014 Object Detection任务的数据集上,实现了单一模型在detection任务测试集上取得mean AP指标42.3%的优秀成绩。目前结果还在提交过程中。