基于深度学习的目标检测算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ruqianwusan3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测任务将目标的分割与识别合二为一,简单地说就是给定一段视频或者一张图片,指出其中的多个目标所属的类别并以包围盒的形式给出这些目标在图片中所处的位置和范围。
  目标检测技术在很多领域有着及其广泛的研究和应用,如视频监控、军事目标检测等,目前学术界已经提出了很多的目标检测算法,取得了很大进展。近年来,深度学习发展极为迅猛,在计算机视觉等很多领域都取得了令人难以置信的突破,其中的一个典型代表就是基于卷积神经网络的Alex-net[20]在ImageNet上取得的重大成功。深度学习在目标检测与分割等方面也取得了很辉煌的成就,不少知名的解决方案脱颖而出,例如R-CNN系列[6][7][9]、SSD[11]、YOLO[10]、R-FCN[19]等,这些新的方法也获得了极其广泛的应用。但是由于应用场景的复杂性,会出现目标的尺度变化大、位移、形态变化、遮挡等各种问题,目标检测系统的准确性会受到极大的考验,这些问题也成为了目标检测算法研究领域亟待解决的难点问题。
  本文的目的一方面在于对目标检测领域目前的发展情况和研究成果进行一些总结,尤其是深度学习在目标检测领域取得的一系列成果;另一方面也分析了目前目标检测存在的一些问题和难点,并提出一些新的方案,以提高目标检测算法的准确率。本文的主要研究工作如下:
  (1)本文设计并实现了一种图像分类卷积特征的目标检测算法。使用Selective Search[1]等常规的Region Proposal算法提取可能包含目标的候选区域;然后采用迁移学习的思想,使用在图像分类数据上预训练得到的卷积特征提取网络(VGG[21]、GoogLeNet[22][23]等)提取卷积特征,进行候选区域的分类和边框的回归。这种方法大大提高了网络的训练效率,同时需要的训练数据更少了,在本文第三章所述的实验环境下,使用VOC2007数据集作为训练数据,训练基于VGG16的网络只需要30分钟左右,同时在测试精度上也没有太大的损失,使用设计更优良的特征提取网络甚至可以取得比Fast R-CNN更好的结果。当使用GoogLeNet或50层的ResNet作为特征提取网络时,mAP为0.67左右。
  (2)本文认为在不同层次和尺度的卷积特征上进行目标的检测能够有效地提高检测算法检测不同尺度的目标的能力,所以设计并实现了一种多层次的端到端的目标检测算法。受SSD[11]和Faster R-CNN[9]的启发,本文在Faster R-CNN的基础上进行了改进,在不同层次和不同尺度的卷积特征上进行ROI的预测和更精确的分类回归,使得算法有了更好的多尺度性,在使用VOC2007数据集进行训练和测试时,检测精度mAP达到了0.69。
  (3)本文结合一些学者为获取旋转不变性特征而提出的可变形卷积网络[24]和为解决目标遮挡问题而提出的Soft-NMS[25]算法,对目标检测算法进行改进,使得目标检测算法获得了较好的多尺度性和旋转不变性,并且增强了处理目标遮挡的能力,在公开测试数据集上的检测精度获得了一定的改善。使用VOC07+12数据集进行训练,基于VGG16和ResNet_v1_101的两种改进后的FasterR-CNN的测试精度mAP分别达到了0.74和0.82,同时在COCO数据集上的测试结果也有提高。
其他文献
在移动互联网时代,人们获取信息的方式、习惯发生了很大的变化,短视频逐渐成为生活中不可或缺的一部分。文旅融合在此背景下如何乘势而上?本文从短视频的社交特性、社会功能和传播效果等角度作了探讨。
森林经营是林业建设的一项重要内容,与林业的可持续发展密切相关。随着生态文明建设的不断深入,森林经营的重要性日渐突显。熊官屯林场结合森林经营实践,积极探索,科学规划,编制了具有前瞻性和可操作性的森林经营方案,分析了林场森林经营的现状和存在的问题,并根据本场森林类型和经营状况,因地制宜确定经营方向,明确经营目标,制定经营策略,主要包括森林经营理念、目标、任务,原则和措施保障等。旨在促进森林经营水平的进
期刊
期刊
期刊
混凝土外观质量缺陷是大体积混凝土施工中重难点,对工程结构的耐久性及使用性能均会产生不利影响。本文结合大体积混凝土施工实际情况,进行了混凝土配合比优化、结构设计优化、入模温度控制、动态养护、组织管理等施工技术及组织控制措施方面的改进,有效地避免了严重的外观质量缺陷,为大体积混凝土施工质量控制提供了参考。
本文介绍了两种大型立式单级引黄离心泵轴向力平衡的设计方法,即平衡孔平衡轴向力和背叶片平衡轴向力。给出叶轮后盖板密封环、平衡孔主要几何参数的计算公式或取值;给出叶轮背叶片、后盖板间隙主要几何参数的计算公式或取值。对两种设计思路及相关设计要点进行浅析。
学位
该文首先对图像检索系统的发展历史做了简单回顾,然后分析了基于内容的图像检索系统的体系结构和关键技术,并介绍了中外著名的基于内容的图像检索系统.在此基础上,该文设计和实现了一个基于内容的图像检索系统PicSeeker,并分析了其各个组成部分,讲述了其工作流程,详细分析了各主要模块设计思想和所采用的技术方法.为了提高系统的检索性能,该文提出了一种将组合特征与相关反馈结合起来的方法. 研究方面,我们提出
本文针对上述问题,从指纹图像预处理、特征提取、匹配三个环节入手,全面提高指纹识别系统的性能。在指纹图像的预处理中,首先进行分块归一化,为后续处理提供统一的规格图像;在求方向图中,用沿着某个方向的灰度方差代替Metre方法中的灰度变化,相当于在求点方向图之前先进行了一次均值滤波操作,这样得到的方向图更有鲁棒性;在二值化中,阀值的选取引入最大熵的概念,使图像具有抗噪性。特征提取中,重点讨论了细节特征的
学位