基于语义对齐的零样本图像分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:spacelion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术的快速发展极大地促进了图像分类任务的进步。然而,深度学习本身是一种数据依赖的学习范式,需要大规模的人工标注数据用以训练模型。在真实世界中,为不可胜举的类别样本进行有效的人工标注是费时费力且不切实际的,此外,对于某些罕见的类别,我们常常难以收集到足够的样本,甚至没有样本以支撑训练。因此,零样本学习(Zero-shot Learning,ZSL)逐渐受到人们的关注,其目标是解决目标任务训练样本为零的条件下的图像分类问题,即零样本图像分类问题。零样本学习通过模仿人类的推理能力,借助辅助语义信息作为已知类和未知类连接的桥梁,在嵌入空间下构建视觉信息和语义信息的跨模态映射,实现跨模态信息的语义对齐,从而完成未知类样本的分类任务。然而,视觉信息和语义信息因本身模态的差异性,面临着语义鸿沟问题,难以在嵌入空间下建立良好的跨模态语义对齐关系。因此,本文围绕嵌入空间下跨模态语义对齐方法展开研究,从构建主动的注意力机制以及构建属性对比约束两个角度出发,实现跨模态信息的语义对齐。本文的主要研究内容如下:第一,提出一种基于混合路由Transformer的零样本图像分类方法。已有的基于注意力机制的零样本学习方法忽略了视觉信息与语义信息因本身的模态差异性而导致的语义鸿沟问题,均采用无模态差异缩小的被动的注意力机制对二者进行加权,从而无法捕捉到属性真正相关的视觉区域,实现嵌入空间下真正的跨模态语义对齐。为此,本文提出一种主动的注意力机制,在嵌入空间下通过使用两种胶囊网络的动态路由,以自上而下和自下而上结合的方式实现语义特征的主动引导和视觉特征的主动学习,从而获取语义真正对齐的视觉特征,缩小视觉信息和语义信息的模态差异,建立有效的跨模态语义对齐关系。此外,本文较早地提出以Transformer的形式构建零样本图像分类框架,通过编码解码的方式完成零样本图像分类任务,为以后的研究提供了一种重要的解决思路。实验表明,本文所提的基于混合路由Transformer的零样本图像分类方法能够有效地缓解模态差异,实现跨模态信息的语义对齐,进而大幅度提高零样本图像分类的正确率。第二,提出一种基于对比约束的零样本图像分类方法。已有的基于嵌入空间的零样本学习方法忽略了对语义属性本身的探索,缺乏语义属性在视觉特征上的高判别性、鲁棒性的特征表达,从而无法实现有效的跨模态语义对齐。为此,本文在基于嵌入空间的方法上引入对比学习,让同一类别下不同样本预测的正向语义属性尽可能的相似,不同类别下预测的负向语义属性尽可能的远离,以此来提升零样本图像分类任务中具有判别性以及鲁棒性的语义属性图像特征表达能力。此外,本文引入Mean Teacher机制,将采用不同数据增强的图像分别输入给学生模型和教师模型,并在两个模型之间构建一致性约束,以此来进一步提升跨模态信息映射的鲁棒性。实验表明,本文所提的基于对比约束的零样本图像分类方法能够有效地提升语义属性的图像特征表达能力,建立出良好的跨模态语义对齐关系,大幅度提高零样本图像分类的正确率,且此模型取得了目前该领域领先的零样本图像分类性能。
其他文献
报纸
玉米作为重要粮食作物之一,经济价值较高。不论是在玉米作物的生产种植还是新品种培育上,植株表型是关键信息,表型性状的精准获取具有重要意义。传统表型研究方法主要依靠人工测定,存在工作量大、效率低下、容易损伤作物等问题。此外,人工收集作物表型信息难以做到全面、精准,已成为数字农业和育种研究中的技术瓶颈。三维重建技术作为作物形态学研究的有效工具,可实现作物表型量化及精准获取。因此,本文利用自主研发的三维成
学位
随着现代化养殖业的迅猛发展,奶牛场养殖模式呈现数字化、规模化、精确化的发展趋势。我国是农业大国,奶业的发展是我国农业发展的关键因素之一,在奶牛养殖业中还存在很大一部分中小型农户散养模式的奶牛场,这些奶牛场管理粗放、智能化低、人工作业强度大。针对以上问题,本文使用机器视觉技术对泌乳期奶牛进行无接触的个体及行为识别,基于此利用Django框架设计和开发一种中小规模养殖场泌乳期奶牛管理平台,实现对奶牛的
学位
当前制造业正在经历深刻的调整和变革,如何积极有效利用现代信息技术,精准控制工业产品的成本和质量,成为制造业数字化、智能化转型发展的关键。传统制造业供应链管理系统往往围绕某一中心企业的管理平台展开,中心化依赖程度极高,链上信息不透明、不对称、不可靠,难以实现全链可信数据采集和多方互信,致使工业品全过程数据追溯困难,难以提升产品质量和企业内部管理效率。而区块链凭借其分布式、公开、透明和不可篡改的特性,
学位
随着我国禽类养殖业的迅猛发展,越来越多的养殖场实行了标准化、集约化饲养与管理,多数禽舍采用密集的立体化笼养方式,养殖密度大。畜禽舍在秋冬季节通常较为干燥,在喂料和鸡群日常活动过程中会产生扬尘,部分粉尘颗粒会沉积在舍内的鸡笼笼网表面,同时由于鸡群的活动和代谢产生的粪污和羽毛等会附着在笼网表面,如果不能及时清理,会加剧细菌、病毒等病原体的滋生,影响鸡群和饲养人员的健康。当前我国对于鸡笼的清洁大多依靠人
学位
复杂背景中的文本信息提取算法已成为计算机视觉领域重要的研究课题之一,相关技术在工业生产、自动驾驶、信息检索等多个领域有着广泛的应用,其显著降低了工业生产成本,有效推动了工业生产模式朝着智能化和高效率的方向持续发展。为提高文本提取技术在复杂背景下的精度和效率,本文对文本检测与分割算法进行了深入研究,研究成果对于多变背景下复杂形态文本的提取任务具有重要的工程意义与实用价值。本文的主要工作和贡献如下:(
学位
多智能体系统的一致性问题是分布式协同控制的基本问题,其通常假设智能体都是“合作”关系。近十年,合作-竞争多智能体系统的二分一致性作为一类特殊的一致性问题也开始得到了广泛关注。然而随着网络技术的快速发展,多智能体网络越来越复杂,智能体的自治性、异构性和开放性等特性虽在解决大规模、复杂任务上有着优良性能,但同时也带来了安全隐患,因此多智能体系统的安全控制非常重要。目前针对恶意攻击下的多智能体系统,大多
学位
频率选择表面(Frequency Selective Surface,FSS)是一种周期阵列的空间电磁波滤波器,可选择性反射或透射特定波段的电磁波,在飞行器隐身领域应用广泛。飞行器在以高超声速飞行时,机身在空气粘性阻滞作用下温度会升至数百甚至上千摄氏度,而传统FSS只有隐身性能而不具备耐高温能力,在高温下会失效并导致内部电子设备烧毁。液态金属因具有高导热率、高沸点以及良好导电性和流动性可将其作为F
学位
近年来,伴随着空间科学技术的飞速发展,为获取更高质量的电磁波信号,就迫切需要星载天线朝着大口径、轻质量和高精度的方向发展。在如此背景下,可展开星载天线应运而生,根据可展开天线的结构形式不同,又可分为固面式、充气式、环形桁架式、径向肋式、构架式等众多类型,其中,径向肋式索网天线因为结构形式简单、展开稳定性较高等优点得到广泛关注。目前,美俄等西方国家已经研制了多种径向肋式索网天线并投入使用,而我国起步
学位
随着人工智能、计算机技术等新一代信息处理技术的快速发展,机械臂领域的研究及应用也向智能化方向逐渐迈进。在智能制造领域,期望机械臂具备更高水平的学习能力,从而掌握诸如抓取、装配、搬运等技能操作。此外,当面对复杂装配环境或者新任务时,需要针对机械臂训练出适应任务要求的策略模型。本文以工业装配场景中的抓取技能和轴槽装配技能为机械臂学习目标,采用深度强化学习理论与技术训练任务模型。通过对抓取技能中样本利用
学位