基于弱监督学习的物体检测及其在图像分类中的应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dashaomai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物体检测,即对自然图像中的物体进行分类并找出物体位置包围盒,是计算机视觉中最基本的问题之一。它在实际问题中有着极为广泛的应用,如相机自动聚焦、自动驾驶、机器人导航、图像检索等。传统的物体检测需要使用大量有详细物体位置和类别标注信息的图像数据来进行训练。然而,收集这些详细的标注是十分费时费力的。与之相比,基于弱监督学习的物体检测(简称弱监督物体检测)只需要使用有图像级别标注信息(即标注图像是包含某种物体类别)的图像数据进行训练,而获取这些数据无疑更加容易,如从互联网上使用关键词搜索。因此,大量研究关注在弱监督物体检测。然而,由于自然图像的复杂性,包括物体大小、位置、视角、形状等的变化,以及物体位置标注的缺失,使得弱监督物体检测面临极大挑战。近年来,许多工作将弱监督学习中的经典方法多示例学习引入到弱监督物体检测中,并取得了很好的效果。此外,深度学习的进步极大地促进了计算机视觉的发展,并在弱监督物体检测中取得了突破。本文基于多示例学习和深度学习,对弱监督物体检测存在的问题展开一系列研究,并提出了三种不同的弱监督物体检测网络,其中第一种网络关注于将弱监督物体检测后两步进行端到端联合训练,第二种网络关注于如何更好地学习弱监督物体检测器,第三种网络关注于如何将候选区域提取步骤整合到网络中,且后面网络是前面网络的延伸和扩展。此外,本文还探索了弱监督物体检测的应用。本文的主要贡献有:(1)提出了一种深度区域学习算法以实现基于多示例学习的弱监督物体检测网络。该网络使用基于示例空间的多示例学习方法将候选区域分类结果进行聚合,使得网络可以直接使用图像级别标注作为训练目标;通过基于嵌入空间的多示例学习方法引入新的物体分类任务,并同时训练弱监督物体检测任务和物体分类任务,通过多任务学习来辅助弱监督物体检测;此外,该网络能对候选区域特征提取、候选区域分类、物体分类进行端到端联合训练。在PASCAL VOC 2007和PASCAL VOC 2012数据集上,该网络在弱监督物体检测上取得了高于之前多示例学习方法超过5%的性能,在图像物体分类上得到了高于之前方法约2%的性能。(2)提出了一种候选区域聚类学习算法。该算法对每张图像中的候选区域进行聚类,使得每个聚类对应于一个物体,并将不同聚类看成不同的多示例学习小包,对每个小包再使用基于示例空间的多示例学习方法来学习弱监督物体检测器。此外,该算法也与神经网络结合,能够对候选区域特征提取和候选区域分类进行端到端联合训练。该算法能极大改善之前方法倾向于检测局部物体的问题,并对复杂图像中的物体大小、位置、视角等变化鲁棒。在PASCAL VOC 2007/2012、ImageNet Detection、COCO数据集上,该算法取得了高于之前最好方法平均5%的弱监督物体检测性能。(3)提出了一种弱监督候选区域提取网络。该网络包含粗糙候选区域提取与候选区域重打分两个阶段,能在弱监督的情况下训练基于神经网络的候选区域提取器。此外,本文还将该网络与之前弱监督物体检测网络整合到一个统一的弱监督候选区域提取及物体检测网络中,使得弱监督物体检测的所有步骤能够通过一个网络完成,在弱监督物体检测中极具意义。在PASCAL VOC 2007/2012和ImageNet Detection数据集上,该网络都取得了高于之前方法超过2%的弱监督物体检测性能。(4)探索了弱监督物体检测在图像分类上的应用。本文将弱监督物体检测中的单模式学习拓展到多模式学习,以寻找每一类图像中多种共有的模式,并将这些模式作为词袋模型中的视觉词汇,从而得到图像表示,这些图像表示被用来作为图像分类器的特征输入。该方法在图像中的行为分类数据集Action 40、物体分类数据集Caltech101、场景分类数据集Scene 15、MIT-Indoor 67、SUN 397上都取得了很好的性能,其中,在行为分类数据集Action 40上,该方法取得了高于之前方法16.41%的性能。综上,本文基于多示例学习和深度学习,提出了一系列弱监督物体检测解决方案,并探索了弱监督物体检测在图像分类中的应用,为后续弱监督物体检测相关研究奠定了基础。
其他文献
<正>甬剧是宁波地方戏曲,它的前身是宁波滩簧,产生于民间,以表现男女爱情故事为主,它的发展与明清以来宁波地区商品经济发展,形成国内最大的工商群体和广大的市民队伍,市井文
主要介绍了澳大利亚土壤环境保护的法律法规、质量标准、管理体制和运行机制及相关监测技术、评价方法等 ,并对澳大利亚土壤污染状况、污染原因及采取的防治对策进行了叙述。
自1993年《反不正当竞争法》颁布至今已逾25年。在这期间,作品名称保护问题的争议层出不穷,但我国法律最初的规定较为原则、笼统和模糊,以至于司法实践缺乏明确指导。我国学术界对作品名称的保护问题众说纷纭,有学者主张其应受反不正当竞争法(以下或简称“反法”)保护,亦有学者反对其受反法保护,截至今日尚未形成统一定论。不可否认,作品名称经商业化使用后承载了特定的商誉,这也是本文拟借反法给予作品名称保护的基
随着国家基建投资规模的连续增长,产生了相当数量的规模施工企业,但一直以来施工企业管理粗放,外部价值资源利用率不高,资源没有有效整合,从而使规模企业产生不了规模效益。本文就
用气垫式连续退火炉研究不同热处理速度对Al-Mg铝合金的力学性能和组织的影响。结果表明:当中间退火热处理温度为460℃时,2.2 mm厚度卷材、速度38 m/min及1.0 mm厚度卷材、速
建国以来,新疆在发展民族教育促进多民族文化融合方面取得了许多经验,除建设现代媒体宣传少数民族语言和文化外,更多地体现为形成了比较完善和相对独立的教育体系、坚持思想
本文以内部审计闭环管理体系为方法论,探索内部审计闭环管理的构建模式,以及基于闭环管理的内部审计价值提升的机理和路径。在业务和机构两个层面闭环管理模型的基础上,借助
随着手机、数据中心服务器以及庞大的互联网服务技术的发展,人工存储和处理数据的能力不断攀升,导致存储在各地的信息量的巨大增长,利用自动化系统高效地进行分类和标记这些
在低碳和环保的强烈诉求下,环境保护部发布了国六污染物排放标准,国家颁布了一系列新能源汽车的补贴政策,这些都促进了纯电动汽车迅速发展。由于驱动电机的外特性与理想的汽车驱动特性场相近,目前纯电动汽车多采用固定速比主减速器,但是为了更高的动力性与经济性需求,使用多挡位变速器代替固定速比的主减速器已经成为必然选择。本文对电机与两挡自动变速器(AMT)集成的动力总成进行相关研究,主要研究内容如下:基于对动力
近年来,BESⅢ、LHCb、SLAC、KEK等大科学装置上发现了一些显含或隐含重味夸克(包括粲夸克和底夸克)重强子,它们很可能是QCD所预言的奇特强子态,显含或隐含重味夸克的强子成为