基于图神经网络的多标签图像识别

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:hanyuanji2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签图像识别是计算机视觉领域中一项基础而实用的任务,其目的是同时对图像中存在的多个物体进行预测。因其广泛应用于属性划分、目标检测、搜索引擎等实际场景中,所以该任务具有巨大的研究价值。相较于传统的单标签图像识别,由于多标签任务中的图像包含丰富的语义信息,因此建模变得十分具有挑战性。建模标签之间的相关性是多标签图像识别任务中的核心研究课题,并且随着深度学习中图神经网络的快速发展,加快了多标签图像识别的研究进程,对于标签相关性的学习也提出了新的思路。基于相关内容的研究,本文提出一种利用图注意力网络(GAT)的多标签图像识别算法,该算法首先设计了一个基于GAT网络的标签分类器模块,该模块将Glove模型训练的词向量作为标签节点的先验输入,并且采用余弦相似性的方法自适应的生成标签关系图,同时GAT网络利用掩码机制自动为邻域节点分配不同的权重参数,进而对标签关系图中各节点所含有的标签类别聚合生成具有标签相关性的分类器;然后通过ResNet-101网络对图像进行特征提取,获得图像的视觉特征;最后,将学习到的标签分类器和图像的视觉特征结合,进而完成多标签图像识别,以此提升识别性能。以往的多标签图像识别方法结合标签分类器矩阵和图像视觉特征时,往往采用点积方式简单的进行融合,忽略了不同模态之间的复杂交互而严重限制了模型的收敛速度和识别精度。针对这一问题,本文在基于GAT网络的多标签图像识别算法的基础上,引入了多模态因子分解双线性池化(MFB)作为融合交叉模态嵌入的有效工具,提出了一种基于GAT的多模态融合快速多标签图像识别算法,该算法由三个关键模块组成:(1)图像视觉特征提取模块,利用ResNet-101学习并生成图像视觉特征;(2)标签分类器学习模块,该模块首先利用单词嵌入技术获得标签向量,然后采用GAT网络学习到具有标签相关性的分类器;(3)MFB模块,该模块设计了适用于多标签图像识别任务的MFB融合模型,并通过级联多个的MFB进而有效的融合分类器和图像特征,以此完成多标签图像识别并提高识别性能。为验证所提算法的有效性,分别在国际权威数据集Pascal VOC2007和MS-COCO2014上完成实验并与目前的优秀算法进行了比较,证明了本算法在提高多标签图像识别精度和加快模型收敛速度方面是较为优异的。
其他文献
图像恢复在许多研究领域都有着十分重要的应用,本文主要针对图像恢复模型中的正则项参数及模型求解算法中的奇点集检测进行研究,实现了参数的自适应变化,加速了算法的运行,提升了图像的恢复效果。(1)提出了一种基于小波框架的图像恢复模型中参数估计的方法,给出了参数的随机性生成公式。该方法首先将待恢复图像的平滑区域及其奇异点集两部分的框架系数建模为指数分布,然后结合贝叶斯估计理论推导出两部分参数的估计公式,使
学位
超平面构形与图论,组合学,代数学及拓扑学都有非常紧密的联系,1986年Spenser提出了著名的Chip-firing Game游戏,该游戏是组合学领域的一个重要而经典的科学问题,而且这个问题可以利用图的理论知识予以刻画。起初以Bjorner为代表的科学家将此问题推广至一般简单图上,并且获得一系列重要而深刻的成果。带号图在1953年由Harary首次定义,是指连接两个顶点之间的边带有正负符号的图。
学位
为实现“双碳”目标,缓解环境压力,构建以清洁能源为主体的新型电力系统刻不容缓。染料敏化太阳能电池(DSSCs),具有易制备、成本低、稳定性优异等特点,引起了科学家们的极大关注。作为DSSCs的关键构件之一,对电极(CEs)有两个主要功能:一是从外电路收集电子;二是作为催化3-还原反应的催化剂。理想的对电极应该具备以下条件:成本低廉、导电性好、比表面积大、催化活性高、能够满足与氧化还原电解质之间的能
学位
在提倡全民终身学习的时代,“人工智能+教育”成为热门的研究领域。智能辅助教育系统可发挥其特有优势,通过为学生提供个性化的教学服务提升学习效率,减轻教师负担,并探索新的教育模式。数学问题的自动求解研究是其重要分支,面向小学数学的自动解题已取得了丰硕的成果。但是,面向高中数学的自动求解研究较少。本文针对高考数学中的解三角形和立体几何问题,开发自动求解算法。算法以试题文本作为输入,输出类人解答过程。研究
学位
本文主要研究了n阶一般图、无三角形图、最大度至多为3的图上极大分离集的计数与极值问题。设F是给定图G的顶点子集,若图G关于F的导出子图的最大度至多为1,则称F为图G的一个分离集。图的分离集是其独立集的一种自然推广。若分离集F不为其他分离集的真子集,则称其为图G的极大分离集。图G中极大分离集的个数记为Φ(G)。上世纪60年代,Erd(?)s和Moser提出如下问题:n阶一般图上最多包含多少个极大独立
学位
1983年Rotenberg引入一类迁移方程描述种群细胞增生,这是一类玻尔兹曼方程,人们把这种模型命名为Rotenberg模型。Rotenberg方程引起了广泛的关注并出现大量研究成果。但是在以往的研究中并没有考虑细胞分裂的时滞性,为了更好更准确地描述细胞增生,本文在前人研究的基础上,考虑细胞分裂的时滞效应,提出了具有时滞效应的Rotenberg方程。在第二章中,在Lp空间中研究光滑边界条件下具有
学位
随着现代科学技术的发展与储存技术的提高,超高维数据已广泛应用于诸如基因表达、信号处理、金融分析等领域中。超高的维度在计算性能和方法论等方面都带来了严峻的挑战。目前,超高维数据主要存在高共线性、伪相关性和噪声积累等问题。因此,特征筛选和变量选择已经成为超高维数据分析中最基本的问题之一。本文主要研究超高维异方差数据下基于边际经验似然的分位数特征筛选。在不依赖于模型假定下,将分位数回归与经验似然的方法结
学位
数学问题的自动求解是人工智能的重要研究方向。目前已有的研究主要集中在求解小学应用题上,而对于高考数学问题的相关研究较少。本文研究我国高考难度下的解析几何和导数应用这两类问题的智能求解算法。将人类解题思维和计算机符号计算的优势相结合,基于Python编程语言,建立了具有高准确性和可解释性的智能求解系统。针对解析几何问题,将求解过程划归为几何对象的建立、几何条件与问题的代数化表示、代数问题的自动求解三
学位
气缸内的空气振动会引起热力学变量和气体速度的振荡,从而影响燃烧特性,所以活塞-缸套结构中气体动力学过程对内燃机的研究非常重要,这一过程可以用Euler方程组描述。对于很多非线性问题,我们无法求得方程的精确解,因此我们常常退而求其次,求得方程的近似解。常用的求近似解的方法是数值解法和解析解法,摄动方法是一种常用的解析解法。本文利用摄动方法中的多重尺度法求得渐近近似解。本文研究的是在没有初始扰动的情况
学位
本文主要研究双螺杆挤出机流体流动的三维数学模型的数值计算方法。由于双螺杆挤出机是塑料等材料加工制作的重要设备,对于它内部流体流动的数学建模和数值计算一直是一个热门的问题。其中,数值计算的难点主要在于流体流动区域是一个复杂的区域,其截面是随时间变化的三连通区域,以致其流动问题难以用传统方法计算求解。对此难点,本文通过将双螺杆挤出机的三连通截面区域光滑映射成不随时间变化的三连通圆界区域,从而使整个流动
学位