基于特征融合和自适应锚框的目标检测算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:choww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,目标检测在智慧城市、无人驾驶、视频信息检索等诸多领域都得到了广泛应用,是计算机视觉、人工智能等领域的重要研究方向之一。本文首先介绍了基于深度学习的目标检测算法的基本理论,然后围绕双阶段目标检测算法进行分析,在目标检测的特征提取、候选区域建议和分类回归阶段分别提出改进措施,提升算法对尺度变化较大、长宽比例悬殊和遮挡目标的检测精度。本文主要工作如下:(1)针对已有的特征提取网络在特征提取过程中连续下采样造成特征图分辨率过低,导致算法对于小目标检测精度低、漏检等问题,实现了一种名为检测网络-特征金字塔网络 DetNet-FPN(Detection Network-Feature Pyramid Network)的多尺度特征融合网络。该网络在特征图提取网络的前四个阶段和ResNet-50保持一致,即每经过一个阶段特征图进行2倍的下采样,在第五、六阶段,取消特征图的下采样,保持特征图为16倍的下采样不变,以此保证特征图具有较高的分辨率,同时在第五、六阶段,设计了两种瓶颈结构(BottleNeck),在这两个结构中引入空洞卷积替换传统卷积来扩大感受野,使得算法能够保证在特征图拥有较大分辨率的同时获得较大的感受野,从而对尺度较大和较小的目标都能获得较高的召回率。(2)设计了一种基于自适应锚框的区域建议网络SA-RPN(Self-adaptation Anchor Region Proposal Network)。基于区域建议的目标检测算法在获取候选区域时,往往根据数据集中大量目标的尺寸聚类结果,预先设定锚框的尺寸和长宽比例,这样获得的候选区域对于极端大小和长宽比例悬殊的目标很容易导致漏检和定位不准确等问题。本文使用的自适应的锚框生成网络SA-RPN把锚框的产生过程分为两个不同的分支:锚框位置预测和形状预测分支。网络首先根据特征图预测锚框的位置,然后结合锚框的位置信息预测其形状信息,把位置和形状预测分支的结果结合起来就得到最终的候选区域。最后为了匹配产生的锚框和对应的特征图比例,设计了一种基于锚框尺寸的特征自适应模块FAM(Feature Adaptive Module),在该模块中使用可变形卷积代替传统卷积,能够根据产生的锚框形状调整对应的特征图大小,从而使得特征图和锚框信息匹配。实验结果表明,该网络能够根据目标的大小和长宽比例产生自适应大小的锚框,使得算法对于各种尺度的目标都能精确回归。(3)在网络的训练过程中,结合本文算法实际设计了一个多任务损失函数,该损失函数除了包含常见的分类和回归损失函数之外,还包含位置和形状损失函数,它们被统一到一个多任务损失函数之中联合优化,实现了端到端的目标检测。另外,针对非极大值抑制算法对于密集和重叠目标容易造成漏检的问题,本文引入了一种改进的非极大值抑制算法Soft-NMS(Non Maximum Suppression),该算法对于同一个目标上的重叠建议框不是直接抑制掉,而是通过降低重叠候选框的置信度,减少重叠目标的漏检问题。本文首先在通用目标检测数据集PASCAL VOC上进行消融实验,验证本文框架中每部分算法的有效性,然后将主流目标检测算法与本文算法的检测精度进行比较,实验表明本文算法相较于目前主流的目标检测算法Cascade R-CNN(以ResNet-50为特征提取网络)获得了 3.41%的精度提升。为了进一步验证算法的泛化性能,有针对性地选择了遥感数据集NWPU VHR-10,本文算法在该数据集上相较于目前主流的检测框架Faster R-CNN(以ResNet-50为特征提取网络)取得了 3.59%的精度提升。总体来说,本文框架是一个实用性强、检测精度高、泛化能力强的通用目标检测解决方案。
其他文献
当化工生产过程出现异常时,通过有效的过程监测和故障诊断模型可以准确迅速地检测出故障并确定其类型,为操作人员提供及时可靠的参考。现代流程工业系统中,生产环节之间联系
米氏酸是一类具有独特结构的有机合成中间体,由于其具有较强的亲电性,而且还可作为亲核试剂参与反应,使得米氏酸在有机合成中得到广泛的应用。米氏酸参与的分子内Friedel-Cra
截止至2014年12月31日,在我国的能源结构中火力发电仍占据总装机量的67.41%,所以,作为能够快速高效提升我国火力发电效率的直接途径,提升超临界机组的蒸汽参数这一技术手段具
在社会飞速发展、社会公众需求结构升级、移动互联网改变公众通讯生活方式的大背景下,近年来我国社会传统安全与非传统安全等社会安全领域事件的多发,让社会公众对安全资讯获
如今神经网络发展迅速,相关的机器学习任务已经广泛应用到了生产生活的方方面面。由于神经网络结构复杂,神经元数量庞大,其中能记忆很多信息,包括正常的训练信息或者恶意嵌入
自20世纪80年代以来,人类活动输入到流域生态系统中的氮磷营养盐急剧增长,造成湖泊氮磷浓度持续上升。本研究选择洞庭湖流域为研究区域,应用美国康奈尔大学开发的人类活动净氮、磷输入(Net Anthropogenic Nitrogen Input,NANI;Net Anthropogenic Phosphorus Input,NAPI)模型,对该流域的氮、磷输入进行定量化研究,估算了该流域人类活动氮磷
目标检测作为计算机视觉的基本技术,旨在对图像中预定义目标类的所有实例进行定位和分类。当前,虽然一些主流的目标检测算法在检测的精度和速度上取得了较好成果,但依然存在
多传感器管理是依据不同的优化准则,对传感器资源进行合理分配,满足对目标跟踪的任务需求。在传感器探测系统中,能够实时调度的传感器资源往往是有限的,同时,受传感器探测能
手指静脉识别系统的性能非常依赖于采集图像的质量,但是采集设备在成像和传输时产生的各类噪声,以及开放式使用场景下设备镜面上存在脏污、用户手指存在蜕皮情况等因素都会对
随着互联网的飞速发展和大数据时代的到来,人们被大量的信息充斥着,其中文本信息是人们接触最多也是最杂的一类信息,在很多场景下文本对象包含多义性,例如新闻、评论、博客等