正负样本均衡的弱监督目标检测

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xuhonghuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测可以为图像理解提供分类与定位信息,有较强的应用价值,被广泛应用于自动驾驶、遥感图像探测等任务中。随着深度学习与神经网络近年来的发展,基于深度神经网络的目标检测方法取得了重大进展。全监督目标检测方法的发展非常依赖大规模精确标注数据集,而边框级的标注费时费力,成本高昂,因此弱监督目标检测方法逐渐受到关注,其仅需要图像级标签,大大降低了训练数据集的标注成本。本文的研究内容为仅有图像级标签的弱监督目标检测任务。弱监督目标检测存在以下三个问题:由于缺乏边框级标签,无法依据目标候选框与边框级标签的位置关系判断其为正样本还是负样本,从而筛选正负样本使其均衡;当训练图像存在同类别多物体时,只选择其中一个最高分目标候选框作为初始正样本生成的伪真值可信度过低,不利于后续分支的训练;网络趋向于选择物体最具有辨别力的区域。针对这三个问题,本文首先引入弱监督语义分割的结果,依据分割结果计算目标候选框的环境分数,利用环境分数区分正负样本,以硬抑制与软抑制两种方式抑制负样本对网络训练过多的影响,并在弱监督目标检测基础网络上增加边框回归分支,简化训练过程。其次,本文利用不同训练阶段网络预测结果的不一致性,提出最优目标候选框累积策略,随着训练的进行,能够挖掘图像中更多同类别的初始正样本,进一步平衡正负样本,生成更可靠的伪真值监督示例优化分支和边框回归分支的训练,提升整体网络的检测能力。最后,由于特征提取网络卷积模块输出特征图所关注的区域与所选择的最高分目标候选框包含的区域息息相关,因此对特征提取网络进行优化,使其可以关注到物体更完整的部分,并且使得物体与背景的差异变大。本文利用不同层卷积模块输出特征图的不一致性,优化特征提取网络中卷积模块的输出特征,从而促进网络检测能力的进一步提升。本文在两个公开数据集上进行了实验。实验结果可以表明各章所提出的方法都具备有效性,能够提升弱监督目标检测网络的检测能力,最终性能可达到与目前主流弱监督目标检测方法相当的水平。
其他文献
实时流数据作为高速连续到达的数据序列,在工业控制,实时监控,自动驾驶,信号处理等与嵌入式系统密切相关的领域广泛出现。随着嵌入式系统对实时流数据的处理性能要求越来越高,嵌入式系统上传统的实时流数据处理系统遇到了瓶颈,数据传输速度、实时性与数据处理带宽等方面的问题越来越突出。针对嵌入式系统对实时流数据进行处理时数据传输速度、实时性与数据处理带宽等方面的问题,本文给出并论述了一套基于VPX嵌入式系统的高
三维点云的语义分割是实现三维场景理解的基础和关键,准确的点云语义结果对于自动驾驶、工业检测及数字医疗等领域都具有重要的实际意义。随着实际应用场景越来越复杂,传统人工设计的特征算子陷入了瓶颈,而基于数据驱动的深度学习方法在语义分割的精度上有了巨大的提升,但仍然存在以下不足:基于单一视图的点云语义分割算法存在着局限性,导致难以达到性能与精度的平衡;点云的多视图融合虽然可以利用不同视图之间的差异性来提升
徽标(Logo)是代表企业形象的重要标志,正确和规范地使用Logo尤为重要。随着信息化的快速发展,办公文件数量与日俱增,海量办公文件中的Logo缺陷检测需求也随之增长,但传统的人工检测耗费人力、物力等大量资源,并且人工检测会因疲劳损耗导致Logo缺陷误检和漏检,因此自动化的Logo缺陷检测尤为重要。本文以实验室合作的软银SB C&S公司的Logo为主要研究对象,设计了基于图像处理的Logo缺陷检测
作为新兴的开源精简指令集,RISC-V在微处理器市场中的占有率逐年上升,由于其缺乏硬件层面的安全隔离机制,如何确保微处理器的安全性成为了亟需解决的问题。本论文针对RISC-V的安全性问题,对其做了以下改进:(1)与主流硬件隔离机制相似,将处理器的安全状态划分为安全世界与普通世界,将内存资源划分为安全区域与非安全区域,安全世界能访问安全区域和非安全区域,而普通世界只能访问非安全区域。(2)在本设计中
密码技术作为网络信息安全的核心技术和基础支撑,其重要性已经逐渐上升到国家战略层次。本世纪洎今,中国持续搭建自己的现代密码体系,公开商用密码算法并鼓励其研究开发和推广应用。而安全场景的不断多样化和复杂化,对密码算法的实时性、安全性和灵活性都提出了更高的要求。本文面向通用的安全应用场景,通过统计分析大量密码算法并归纳其典型特征,研究设计了一种适应密码算法的专用指令集处理器(Application Sp
近年来,人工智能飞速发展并在许多领域得到了应用。然而神经网络庞大的数据量对硬件的密集型数据处理能力是一个新的挑战。传统的冯诺依曼结构由于存储器和处理单元的分离,需要多次地存取数据,形成了“内存墙”问题。而存内计算架构通过赋予存储器计算功能解决了数据存取的问题,非常适合用于实现神经网络等高数据密度的应用。一些新型的阻值非易失性存储器的出现,为低功耗,高集成度的存内计算核的实现提供了更多可能。现有的存
当前在传感器数据融合、在线医疗诊断、健康大数据等领域,数据库应用需求呈现数据多模态、来源多元化和用户需求个性化、定制化的趋势。开源数据库拥有可扩展和能按需定制等商用数据库不具备的优点,可适用于各种特定的数据库应用领域。然而,开源数据库往往存在安全审计工具不够完善、缺少集成化的安全审计组件等问题。因此,对开源数据库的安全与审计技术及其组件开展研究有很好的实际应用价值。针对以上需求,本文完成了一种面向
心电信号作为一种包含大量病理信息的生物电信号,被广泛应用于心脏病的临床诊断,是推进远程医疗应用的重要材料。心电信号作为一种微弱、非线性且不稳定的人体生理信号,具有低幅值、低信噪比和随机噪声的特征,高质量的心电信号可以帮助医生识别生理特征和诊断病理现象。本文主要针对心电信号的特点,对心电信号预处理、特征提取及医疗应用过程展开研究,提出了一系列对多类型心电信号记录的分析方法。主要的研究内容如下:1、提
视频超分辨率是一种将低清视频流转换为高清视频流的图像处理技术。近年来,基于深度学习的视频超分辨率算法的重建指标已经超过了传统算法,但是这类算法的模型参数量通常较大,即使在高性能的服务器上也很难达到实时推理,导致算法难以在实际场景中得到广泛应用。为了降低视频超分辨率算法的模型参数量、加快网络的前向推理速度,本文对实时的视频超分辨率算法展开研究,主要内容如下:(1)为了解决参数量小的算法无法有效应对视
无人车的定位问题是无人驾驶中的关键技术,是当下的研究热点。传统的定位方法,例如GPS、惯导在城市环境下难以满足高精度的定位需求,视觉定位因为传感器体积小、成本低,定位精度高的特点在定位问题中越来越受到重视。视觉里程计是视觉定位中的一种经典方法,但其作为一种航位推算算法,需要给定一个确定的起始位姿,并且它不可避免地存在累积误差。在城市环境中,车载传感器通常无法提供一个准确的起始位姿,在长距离定位中视