基于超分辨率重建的航拍图像目标检测技术

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:helloMrFat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无人机技术和计算机视觉技术的快速发展,赋予无人机(UAV)视觉感知和认知能力正在成为一个热门研究方向。目标检测作为计算机视觉领域的主要研究内容,是许多计算机视觉应用的基础任务。因此,研究如何在无人机航拍图像上实施高效目标检测对无人机应用的发展尤为重要。由于拍摄高度的原因,航拍图像中的很多目标在整张图像中所占的比例远小于一般数据集中目标所占的比例,因此航拍图像中存在很多小尺寸目标。这些小尺寸目标缺乏足够的细节信息,这导致它们容易被错误分类。为了补偿小目标的信息丢失,本文使用超分辨率(SR)重建技术在目标检测的过程中提高小目标的特征分辨率。为此,本文首先提出了一个具有生成对抗网络(GAN)结构的超分辨率重建网络,并将它命名为WD-SRGAN。在WD-SRGAN的框架中,使用WDSR作为生成器对输入图像进行超分辨率重建,并使用相对平均鉴别器(Ra D)作为鉴别器为超分辨率重建算法引入对抗损失,这个损失迫使重建后的图像尽可能地与真实高分辨率图像相似。此外,本文还为超分辨率重建算法增加了基于VGG网络特征映射计算的损失函数。接着,本文选择Faster R-CNN作为基准检测网络,将在WD-SRGAN框架中经过充分训练的生成器WDSR嵌入到Faster R-CNN之中,利用超分辨率重建网络对候选区域的特征进行上采样。上采样后的特征图具有更大的尺寸和更多的细粒度信息,便于检测网络将其中的目标正确分类。在Vis Drone航拍数据集上的实验结果显示,与原始Faster R-CNN相比,用超分辨率重建网络扩展后的Faster R-CNN检测性能明显升高,其中小尺寸的行人和汽车的平均精确率分别从15.71%和12.28%提升至32.56%和23.16%。小尺寸目标的特征难以被特征提取网络获取,经过特征提取网络的卷积过程之后,小尺寸目标在特征图中的尺寸会更小,导致小目标容易被区域建议网络(RPN)忽略掉。为了增强网络对小目标特征的提取能力,本文基于选择性卷积核和特征融合优化Faster R-CNN。首先,使用可以自适应选择卷积尺寸的SKNet代替Res Net作为Faster R-CNN的主干网络,以捕获不同尺度目标的特征。同时,结合使用一种基于超分辨率重建的特征融合技术EFPN在不同的尺度上提取特征。在Vis Drone数据集上的实验结果显示,SKNet和EFPN的应用将平均精确率50和平均召回率100分别从15.63%和12.23%提升至42.43%和28.92%。在此基础上叠加WDSR,最终的50和100分别为47.85%和33.47%。
其他文献
互联网的迅猛发展给用户提供了丰富的信息资源,满足了用户在大数据时代对信息的需求,但是用户在对信息进行收集、过滤、整理和归纳时的能力是有限的,特别是在应对大量数据时,用户想要从中获得可用的信息就变得异常困难。个性化推荐系统的出现不仅能够解决这个问题,还能提高用户检索信息的覆盖面,制定个性化推荐内容。其中,推荐算法的应用是上述功能实现的重要前提条件。协同过滤推荐算法因其实现方法简单、模型扩展性强、推荐
随着医学成像技术不断地发展与革新,医学影像在临床诊断中具有重要作用。由于成像模式不同,不同成像设备采集到的医学图像呈现出不同的模态,反映出人体中不同的结构信息。然而单一模态医学图像仍不能全面地刻画病灶信息。图像融合是一种将多模态图像融合生成一幅融合图像的图像处理技术。融合图像能有效提高医学图像辅助诊断的准确度和效率,因此研究多模态医学图像融合具有一定的理论和实际应用价值。现有三维的图像融合方法较少
随着移动设备和Web2.0技术的迅猛发展,基于位置的社交网络(Location-based Social Networks,LBSNs)逐渐在人们的生活中普及。目前主流的社交应用每天都在产生TB级别的时空数据,这些数据通常以签到数据(check-in)的形式记录,基于这些数据,学者们提出了多种类型的位置推荐模型,但其在处理数据稀疏、冷启动等问题时表现不佳,且时间效率与推荐精度低。针对这些问题,本文
深度学习凭借海量训练样本和不断提升的硬件算力的支持,在计算机视觉的多个领域里获得了巨大成功,基于深度卷积神经网络的模型目前已成为目标检测领域的主流。基于深度学习的目标检测分为两个研究方向:一是高精度检测,借助性能强大的运算设备刷新模型在通用基准数据集上的检测精度;二是轻量级检测,侧重于模型的轻量性和实时性,在检测精度不显著降低的同时尽可能减小模型的规模,使其更适合部署于实际应用场景中。当前的轻量化
运动目标跟踪是计算机视觉技术的一个重要研究领域。由于尺度变化、目标被大面积的遮挡、目标与背景相似度过高等问题给目标识别、运动目标跟踪带来了诸多的研究难点,多帧差分法、均值漂移以及运动估计给上述难点提供了可靠的解决方案。本学位论文以运动污染物的检测与跟踪作为应用目标,首先设计了一种基于均值背景法的运动污染物检测方法,然后设计一种基于状态估计自适应漂移的运动污染物跟踪算法,解决在目标污染物被遮挡情况下
《受伤的新娘》是歌剧《巴亚捷》中著名的咏叹调,由巴洛克时期著名作曲家维瓦尔第创作,这首作品显示了巴洛克歌剧咏叹调的艺术魅力,堪称为抒情咏叹调中的经典之作。本文介绍了维瓦尔第《受伤的新娘》这首咏叹调的创作背景,故事梗概以及歌词、伴奏、曲式结构的创作特点。结合自己的实际演唱,分别从歌唱位置、气息、咬字、情感表达这四方面进行演唱分析。并且对巴托丽和曹秀美的演唱进行对比分析。本课题的研究是本人对过去三年研
重唱是提高歌剧表现力最经典的方式之一,它是一个多人合作的演唱方式,通过两个或两个以上的声部、音色进行和声对位来打造声音的立体效果及音乐的张力性。本文将以歌剧史上第一批歌剧的作者,意大利作曲家蒙特威尔第先生的歌剧《波佩亚的加冕》中的二重唱《我也望着你》为基础,采用文献资料整理总结以及自身在学习实践中对二重唱的经验总结的方法,对二重唱作品《我也望着你》的旋律、曲式和声、演唱时对声音的控制以及舞台表演、
汽车保有量的不断增加在带来便利的同时也给交通增加了巨大的压力,不规范的驾驶行为是导致交通事故频发的重要原因,因此对驾驶行为进行监测与规范应成为避免交通事故的重要手段。针对上述问题与需求,本文做了以下几项工作:首先,本文研究了基于迁移学习的驾驶行为识别方法。该部分内容主要分为卷积神经网络的研究、图像增强技术和驾驶行为识别的仿真实验设计与分析。针对卷积神经网络的研究,本文先介绍了卷积神经网络的基本原理
作为一名美声方向的研究生,多学习国外咏叹调和艺术歌曲,是提升自己音乐修养的一个必备过程,对西方歌剧的作曲背景了解和音乐诠释也是我们专业学习当中的一个必备条件,本论文的主要研究目的是了解多尼采蒂的作曲风格,感受其时代背景下音乐对于文学戏剧节奏流动的感染力,通过他最著名的四部歌剧其中的一部歌剧《爱的甘醇》的人物角色塑造和刻画,由大到小,重点分析其中女主角阿迪娜的咏叹调《无情的伊索尔德》,通过对比不同版
江北区慈城镇地处宁波市区西北部,辖区面积102.57平方公里,区域人口约12万,是中国历史文化名镇、中国年糕之乡、中华慈孝之乡。慈城历史源远流长,拥有7000年的文明史、2200年的建城史和1200余年的县城史,是我国江南地区保存最为完整的古代县城,保留了超过60万平方米的历史建筑,素有"鼎甲相望、进士辈出、举人比肩、秀才盈城"之誉,涌现了一批文化界、金融界近当代名人。
期刊