基于深度学习的多标签图像分类技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:rossh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视觉成像设备、计算机网络技术以及移动社交媒体的飞速发展,以图像和视频为主要传播媒介的信息在互联网上呈爆炸式增长。对图像内容的管理和利用的需求也日渐增强,而对图像的管理和利用是建立在对图像内容的语义理解上的。多标签图像分类是指将图像划分到预先定义好的语义类别中,一张图像与至少一个类别相关,它是图像自动标注的一种,是图像语义理解最直接的实现方式,具有重要的研究价值与应用价值。近年来深度学习在图像分类与识别上取得了里程碑式的进步,但是绝大多数工作集中在单标签图像分类,其中有少数工作将多标签分类问题转化为多个单标签分类问题以利用深度卷积神经网络(CNN)的强大学习能力来改善多标签分类的效果。这些工作取得了一定的成功。但是,这些工作多集中于解决视觉模态到文本模态的关联学习,一定程度上忽略了标签与标签之间的语义相关性,以及图像与图像之间的视觉相似性。这些信息倘能合理利用,能够有效改善多标签分类的效果。因此,本文着重探索了目前主流的基于深度学习的多标签图像分类技术,在此基础上,首次提出基于深度卷积神经网络并进一步融合标签相关性与视觉相似性的多标签图像分类方法,具体而言,本文取得了如下成果:  本文提出一种基于标签相关性的多标签图像分类方法。该方法利用二分类器学习对应的类别标签与当前图像的二值相关性,同时利用成对排序损失函数学习标签与标签之间的成对相关性。在此基础上,本文进一步引入一种在线难负例关系挖掘策略,使得模型集中学习易混淆的标签关系,降低了模型训练的运算量,并提高多标签图像分类的精度。  为提高目标在复杂背景及部分遮挡情况下的预测效果,本文提出一种基于卷积特征聚合的多标签图像分类方法。其中,本文设计出一种基于空间注意力自适应聚合的卷积层特征,该特征通过卷积层特征投票、阈值去噪、注意力转移等方法在图像上捕捉感兴趣的目标。本文用该特征查找图像的最近邻,并基于视觉相似性通过最近邻标签决策完成多标签分类。最终实验结果表明基于卷积特征聚合的近邻多标签分类方法能大幅提高目标召回率。  在上述研究基础上,利用标签相关性模型的高准确率与视觉相似性模型的高召回率的特点,进一步提出融合标签相关性与视觉相似性的多标签图像分类系统。该系统一方面能对图像与标签、图像与图像、标签与标签之间的关系进行充分挖掘,另一方面视觉相似性模型能够对训练数据进行二次利用,缓解CNN易过拟合的问题。实验表明,本文提出的多标签图像分类系统在NUS-WIDE数据集上优于现有的同时使用CNN和循环神经网络(RNN)的方法,在PASCAL VOC及MS-COCO数据集上达到目前已发表文献最好水平。
其他文献
索引更新是搜索引擎的关键技术之一。以往动态文档集合下的索引更新策略的研究主要针对文档的插入和删除。对于文档的插入,索引更新的基本思想就是首先对插入的文档建立内存索
社会网络分析方法是一种量化的社会学分析方法。它将社会行动者映射为图的节点,社会行动者之间的关系映射为图的边,然后利用图论的相关知识来解决社会网络的问题。数据挖掘是
随着网络的飞速发展,用户对网络连接的数据率、容错性等要求越来越高。多路径传输(Multihoming)可以利用多个网络接口,同时建立多条传输路径进行传输,是一种提高连接吞吐量与
树木建模是虚拟现实研究的热点,但是树木的基因结构和生长环境复杂,导致了树木建模过程繁琐复杂。自然场景对实时性和逼真度要求很高,现阶段的树木建模过程精度差、渲染速度
普适计算(Pervasive Computing)是一种新型的分布式计算模式,它强调人与计算环境的紧密联系,使得计算机和网络更有效地融入到人们的生活中。随着普适计算设备种类和数量的增加,
军事和经济等关键领域的数据应用需要安全实时数据库(SRTDB)提供安全和实时保障,但是隐蔽信道严重威胁着安全实时数据库的表现。如何有效地限制隐蔽信道威胁,同时保障系统的实
排课是学校教学管理中十分重要且又相当并复杂的管理工作之一。随着高校教育事业的发展,学生人数的不断增加,在教室资源有限的前提下课程编排就显得更加繁重,同时课程的编排
随着计算技术和通信技术的发展,笔记本、PDA、手机等移动设备的便携性和计算能力都得到了很大的提高。将这些设备应用于日常生活以帮助人们提高生活与工作效率成为一种新的需
网格作为一种新兴的基础设施,目的是把地理位置上分散的资源集成起来,通过这种基础设施,用户不需要了解这个基础设施上资源的具体细节就可以使用自己需要的资源,从而实现互联
H.264/AVC(以下简称H.264)是由活动图像专家组和视频编码专家组共同组成的联合视频组JVT制定的新一代国际视频编码标准。预测模式选择和运动估计是H.264标准的关键技术,是视