基于卷积神经网络的小目标检测方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:resway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于卷积神经网络的目标检测方法取得了很大的进步,然而在大规模的图像中检测小目标仍然是一个具有挑战的任务。因为小目标在图像中具有较低的分辨率,有限的像素不足以保留小目标的细节信息。而目标检测模型对输入图像进行下采样,提取的特征逐渐丢失了空间信息,影响了小目标的特征表示。小目标检测将直接影响下游许多任务,如无人驾驶汽车从高分辨率的图像中实时、准确地检测路况、交通标识、障碍物等是保证驾驶安全的前提。在医学影像检测中,辅助医生准确并且快速的诊断病灶情况至关重要。这些场景中,存在大量的难以识别的小目标,这对目标检测模型的性能具有极高的要求。因此对小目标检测方法的探索具有非常重要的研究价值和意义。本文针对基于卷积神经网络的目标检测方法在小目标检测任务上存在的缺陷,围绕多尺度特征学习、数据增强以及不平衡问题等方面展开研究,主要思路和研究内容如下:(1)面向多个密集区域的小目标检测方法。多尺度特征学习是训练目标检测模型的有效方法,该方法思路简单,效果显著,但是存在重复检测、冗余计算、计算量增加、推理时间延长的缺点。通过对目标检测数据集的观察,发现大多数小目标常常聚集在图像的多个区域内。基于这些观察事实,提出一种面向图像局部区域的多尺度训练方法,引入密集区域检测算法检测图像中小目标密集的区域。并对Faster R-CNN模型进行改进,提出MagnifierNet模型。与多尺度的训练相比较,该方法避免了目标重复检测问题。同时增强了小目标的细粒度特征,提高了小目标的表征能力。此外,还提出一种面向密集区域的数据增强方法。以密集区域检测方法为基础,提出一种面向密集区域的数据增强方法。检测出图像中的多个密集区域后,将这些密集区域从原图像中裁剪出来并上采样,作为额外的训练数据。新数据中的目标尺度变化明显,增加了训练集多样性的同时还在一定程度上缓解目标尺度不平衡问题。(2)基于平衡损失函数的小目标检测方法。小目标检测模型训练时普遍存在不平衡问题,本课题针对类别不平衡问题以及优化目标不平衡问题展开研究,将不平衡问题考虑为训练时梯度的不平衡。针对该问题,先分析了交叉熵损失函数的梯度变化情况,接着提出了平衡交叉熵损失函数(BLCE)以及平衡二分类交叉熵损失函数(BBCE)分别用于缓解目标不平衡以及样本不平衡。实验结果表明,BLCE有效的平衡了分类和回归损失,BBCE很好的缓解了难易样本、正负样本不平衡问题。进一步验证了缓解不平衡问题有助于提升小目标的检测能力。
其他文献
本文以工程机械中润滑油和燃油中易混入水而导致润滑系统和发动机系统失效为背景,基于超润湿材料设计方法,针对工业生产中存在的分层油水和分散油水(乳液),利用金属橡胶设计并制备了两种高效分离油水的超润湿材料,解决传统超润湿材料表面微观形貌易磨损的难题。本文主要进行了以下几点研究:(1)深入研究金属橡胶的制备工艺,推导出金属橡胶孔隙度计算公式,基于平均水力直径模型推导出金属橡胶水力直径。在此基础上,针对工
学位
通常高维数据中蕴含着大量的隐私信息,如果直接发布可能导致隐私的泄露。虽然差分隐私技术能够严格地保护数据的安全,但随着数据属性维度的增加,其产生的时间成本和噪声干扰也将随之增大。尤其是对于高维二值数据很容易被过大的噪声所覆盖。在现有的高维数据差分隐私发布方法中,很少有针对高维二值数据的发布方法,以致于大多都无法很好地解决该类型的隐私发布问题。因此本文结合现有的方法,针对高维二值数据的隐私发布问题展开
学位
受光照条件或相机参数的影响,数码相机通常无法捕获真实场景的完整动态范围,单次曝光拍摄的图像所包含的动态范围与人眼所能感受的动态范围存在巨大差距。对于光照不足的场景或区域,如夜景、昏暗的室内和背光拍摄场景,相机常由于曝光不足而捕获到低光照图像。低光照图像往往色彩暗淡、对比度低且图像细节丢失。对于光照不足的场景或区域,同时捕获低光照图像和正常光照图像是困难甚至不可行的,且低光照图像难以定义与其唯一对应
学位
基于位置的服务利用地理信息为人们的日常出行提供导航服务,服务期间用户不断上传的位置信息形成轨迹大数据。用户轨迹数据的发布可为城市规划、商业决策等提供有力支撑。然而,直接发布未经隐私保护的轨迹数据,恶意攻击推理将对用户的安全、财产等产生严重威胁。因此,常利用差分隐私模型进行轨迹数据发布。该模型通过扰动数据来保护用户隐私。如何在保护隐私的同时兼顾高数据可用性,是轨迹数据安全发布研究中的重要内容。目前差
学位
骨架动作识别是计算机视觉与人工智能的重要研究领域,其通过分析人体骨架运动,从中获得运动特征,根据获得的特征将不同语义的骨架序列进行识别,可用于智能安防、智能医疗、虚拟现实、人机协作等多个领域。近年来,随着深度相机的使用越来越广泛,由此产生了一些3D人体骨架数据集,同时也推动了骨架动作识别研究的发展。但尽管如此,还是会出现在许多特定场景下相关动作缺乏有效数据集的情况。因此,在小样本的条件下对骨架动作
学位
随着互联网和多媒体技术的快速发展,图像已经成为人类信息交流和信息传递过程中不可或缺的一部分,对现代社会的信息存储和信息交互技术等方面的发展具有实际意义。然而,图像的采集、生成、存储以及传输过程中,难免会受到不同类型、不同程度的噪声信号的污染。因而需要对噪声图像进行处理,即从一幅低质量的噪声图像中恢复出高质量的无噪声图像。目前,许多图像去噪的深度学习方法已经被提出,但仍存在去噪结果的细节或纹理损失严
学位
人体动作识别通常是指对给定的视频流数据或者三维骨架数据流进行分析并识别出其所代表的动作类型,在体育、人机交互、智能监控等领域上具有广泛的应用前景,目前已经成为计算机视觉领域中的研究热点之一。随着深度采集设备的推广,三维骨架数据直接给出了人体骨架在动作执行过程中随时间变化的三维坐标序列。因此,相较于视频流下的人体动作识别,三维骨架信息下的人体动作识别具有不易受到光照、遮挡以及环境变化等影响的显著优点
学位
布局是超大规模集成电路布局(Very Large Scale Integration,VLSI)电子设计自动化中非常重要的一环,是典型的大规模NP-困难问题。布局解的质量对芯片的性能、功耗、面积等有着十分重大的影响。随着现代先进制程的发展,电路芯片的集成度不断提高,芯片上的单元个数快速增长至百万级甚至更高。同时,为了优化电路芯片的性能,越来越多的预先设计的特征被加入到布局约束中,使得现代先进制程下
学位
随着人工智能的发展和5G时代的到来,三维视觉和虚拟现实等应用也越来越青睐点云表示的媒体。但其海量性也带来存储和传输上的问题,需要对数据进行高效表示。先前逆向建模中的关键点采样、点面片聚类等精简技术由于目标不同而不适用,现有压缩技术在应用范围上又具有局限性。本文结合稀疏编码和深度神经网络的优势,提出了结合稀疏编码的点云压缩算法,并将算法应用于大规模场景和表面光场数据的压缩中。本文的主要工作与贡献包括
学位
随着因特网与多媒体硬件技术的不断革新,出现了越来越多的大规模无标记高维图像。如何高效地处理这类图像数据始终是一个热门且重要的研究方向。特征嵌入学习是一类有效的学习方法,它不仅仅降低了数据的维度,同时保留原始特征大部分的物理信息,适用于许多的研究领域。然而经典的监督特征嵌入学习算法无法有效地解决无标记数据,而无监督特征嵌入学习算法在面对此类高维数据也存在效率低下和过拟合等问题,这对于后续的图像分类等
学位