基于多级特征融合的小目标深度检测网络研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:aquarius215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络在通用目标检测任务中取得了优异的表现,但在解决小目标检测这类任务时仍面临较大的挑战。作为自动驾驶、智能安防等重要任务的下游基础,小目标检测的难点主要在于待检目标的尺寸小、分辨率低、携带信息不足,对网络的特征提取和融合能力的要求更高,因此面向常规任务的通用目标检测网络在小目标检测中的效果不够理想。对此,本文分析小目标任务下的通用网络在多级特征的提取与融合方面的不足,分别对模型的主干网络和检测头部进行针对性的改进,进而构建面向小目标检测的深度卷积网络。本文首先通过可视化分析总结出通用检测网络各部分在小目标检测中的不足,即主干网络部分在提取小目标特征时存在特征品质较低且部分特征冗余,检测头部在分类回归时难以兼顾小目标的浅层细节特征和高层抽象特征。然后,本文针对性地设计了浅层特征品质与融合效率更高的主干网络SFEDNet(Split-and-fusion Efficient Dense Net),在连接层级上增设感受野更小的卷积分支以提取更多的细节纹理信息。在模块级上进行结构精简,提出了融合方式更加高效的优化密集连接模块,进而将浅层特征融合的思想应用到模块间连接,使得浅层特征得到跨模块复用。最后本文为检测头部引入通道-空间融合注意力模块:对于通道注意力模块,设计了一种新的多频域融合方式代替传统的“全局平均池化”,更好地保留小目标检测所依赖的重要浅层信息,增加网络对小目标区域的有效关注;对于空间注意力模块,采用不同尺度的空洞卷积替换普通卷积,更快地弥补主干网络缺失的大尺度背景区域的感知能力,减少对背景区域的无效关注。本文实验选择无人机视角下的小目标检测作为任务场景,以通用检测网络和部分小目标检测算法为基准展开对比实验。实验结果表明,改进后的网络相比通用网络在小目标任务中取得了约8%的精度提升。本文还结合了实际的检测结果与热力图分析,直观展示并验证了改进后的注意力模块对多层级特征兼顾问题的有效改善。
其他文献
随着社会上智能手机和移动互联网的发展,智能手机已经慢慢成为我们必不可少的生活工具,人们把钱财资金、学习资料等信息都从线下转移到了线上操作。与此同时,智能终端中存储了大量的个人信息,这些信息中包括了大量的隐私信息,包括电话、账户密码、短信、照片等信息。这些信息可能会被一些恶意软件收集并传输到网络上,用户们的隐私信息被当作了获利数据到处售卖,信息的泄露会给智能手机用户带来巨大的损失。为了防范这些恶意软
生活于哀牢山、无量山一带的哈尼族,千百年来,随着自然环境、社会环境与文化环境的变迁,其文化不断交融和发展,创造了举世瞩目的农耕文明以及纷繁多样的乐舞文化,木雀舞便是哈尼族梯田稻作文化与宗教祭祀文化相结合所产生的代表性舞蹈样式,也是极具仿生意味的民间舞蹈。本文以哈尼族木雀舞仿生元素在教学组合编创中的运用研究为目的,采用交叉研究的方法,将仿生学中的相关理论运用于哈尼族木雀舞的研究。在哈尼族木雀舞民族、
佤族是一个跨界民族,主要分布于我国云南的西南地区,其中居住于沧源岩帅地区的佤族自称“布饶”。在佤族族群漫长的历史进程中,形成了与之相对应用来表述文化和情感的重要媒介,也就是“音乐”,并在具体的音乐事象中存在着特有的复杂因素。“音乐”是佤族人民智慧的结晶,是佤族人历史生活的写照,具有鲜明的地域性和民族性。本研究主要通过深描沧源岩帅地区佤族村寨的历史族源、宗教信仰、民风民俗等社会生活,聚焦音乐人类学研
凭借较高的频谱利用率,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术获得了广泛的应用,然而对于传统的OFDM接收机而言,由于其采用高比特模数转换器(Analog-to-digital Converter,ADC),导致整个系统有较大的功率损耗。因此,为了降低功率损耗,在OFDM系统中采用低比特ADC对接收信号进行量化。然而,低比特
目标跟踪技术当前是计算机视觉领域的一个重要的研究方向,在智能交通、视频监控、人机交互和自动驾驶等系统中广泛的运用。人为给定跟踪目标的初始信息,视觉目标跟踪算法能够准确地预测在接下来连续视频帧序列中跟踪目标的具体位置、尺度变化和行动轨迹等动态信息。跟踪场景种类繁多,背景环境复杂且多变,并且目标运动必然会产生形变、遮挡、模糊等问题,因此建立一个既准确鲁棒又满足实时性的视觉目标跟踪系统一直被认为是极富有
X射线计算机断层成像技术(X-ray Computed Tomography,CT)是一种临床常见、可提供清晰人体解剖结构图像的诊断工具。虽然限制CT设备扫描角度可有效降低患者所受电离辐射,但会导致在某些扫描角度上投影数据的部分缺失,最终使得重建出的CT图像质量大幅下降。因此,如何在CT投影数据不完整情况下重建出符合临床诊断需要、高质量的CT图像具有重要的社会价值和理论研究价值。为了提高部分扫描角
作为口腔临床诊断的重要工具,X线头影测量分析技术首先需要定位投影测量图像中的解剖特征点。由此可见,特征点的定位精度会对后续的口腔临床诊断产生重要影响。目前临床上仍然主要采用人工方式对特征点进行标记,定位速度慢、精度上受到主观因素影响较大,无法应对目前国内口腔临床日益剧增的门急诊量。因此,发展X线头影测量图像解剖特征点自动定位技术有重要理论价值和临床应用前景。为了提高X线头影测量图像解剖特征点定位速
随着深度学习的再度兴起,深度神经网络尤其是卷积神经网络在计算机视觉、自然语言处理等领域展现出极大的优势,广泛地应用于图像分类、目标检测、语义分割、语音信号处理、医学图像分析、遥感图像分析等实际应用及许多边缘计算场景。本文的主要研究内容如下:(1)在检测起重机表面锈蚀缺陷的各类方法中,人工巡检效率低下、传统手工设计特征的目标检测方法检测准确率较差。YOLOv3是一种更适用于边缘计算场景的快速目标检测
水彩画由于丰富的艺术表现力,在非真实感绘制领域备受关注。传统的水彩风格化算法能实现对水彩艺术效果的真实渲染,但算法复杂度较高,仅适用于高性能的台式设备。本文提出基于智能手机的水彩风格化绘制技术的研究,从绘制效果和算法效率的角度出发,在智能手机上实现对水彩画艺术效果的真实、高效模拟。本文的主要工作包括提出了一种水彩风格化绘制算法框架,研究了风格化绘制算法的优化方法,实现了一个基于Android手机平
JavaScript是Web前端开发中最主要的程序设计语言之一,在TIOBE发布的程序设计语言排行榜中长期居于前列。作为一种解释型语言,JavaScript的代码经内嵌在Web浏览器中的JavaScript引擎解析后执行。目前已存在诸多JavaScript引擎,其中V8、SpiderMonkey和Chakra的使用最为广泛,三者的市场占有率之和高达84%。被正确实现的JavaScript引擎是Ja