基于跨模态语义对齐的零样本图像分类

来源 :天津大学 | 被引量 : 0次 | 上传用户:lingfangzhi12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据与深度学习的发展极大促进了图像分类技术的进步。由于深度学习的数据驱动和监督式学习特性,在训练阶段需要大规模标注样本。然而,现实世界包含数以万计的类别,人工标注需要极高人力物力,且对于某些稀缺类别,往往难以获取充足样本支撑训练。为此,无需标注样本即可对新类别进行预测的零样本学习(Zero-shot Learning,ZSL)逐渐受到关注。零样本学习模仿人类可利用辅助语义信息对未见事物进行推断的过程,旨在借助中间层类别语义特征,寻求特定嵌入空间建立视觉模态和语义模态的有效映射进行跨模态语义对齐,进而实现从可见类到未见类的知识迁移,是机器学习的一种更加开放和动态的设置。本文基于不同跨模态语义对齐空间,分别从流形学习和类别均衡学习角度提出两种模型用于解决零样本图像分类任务。
  首先,本文基于不同模态所共享类别语义结构信息呈流形分布的假设,从语义嵌入空间和公共嵌入空间出发提出两种算法,分别为基于语义嵌入空间的ME-ZSL算法和基于公共嵌入空间的MCCA-ZSL算法。ME-ZSL以语义空间作为嵌入空间从不同模态的类内紧密度、类间分离度以及类别监督下的视觉空间局部结构特性保持设计流形约束;MCCA-ZSL则在公共空间挖掘视觉语义模态内在关联,根据类别语义相关性设计流形方案约束不同模态的类间相对分布关系,及类内不同样本相对距离关系,构建具有良好判别性的公共模态空间,最终可转化为奇异值分解问题。两种算法均将流形约束显式应用于目标函数中,具有高效且可解释性好的闭式解。在三个主流数据集AwA1,CUB和NAB上进行充分实验验证了算法有效性。
  其次,本文以视觉空间作为嵌入空间,从类别样本不均衡角度思考零样本学习问题,提出基于跨模态语义引导的类别均衡模型(Semantics-guided Class Imbalance Learning Model, SCILM)。在类别层面,设计了一种类别均衡的训练模式,每轮迭代从每类随机抽取相同数量的样本组成一个训练批次,确保少样本类别每轮训练的贡献度,并从类别层面进行视觉语义跨模态对齐;在样本层面,基于语义引导设计注意力机制,关注所抽取样本个体实例的表征能力差异,获取更具有层次性和鲁棒性的类别视觉原型表征。设计实验较为全面地分析了SCILM在三个存在类别样本不均衡问题的基准数据集的实验结果,证明SCILM以较为简洁的网络结构,可改善模型对于少样本类别的类间信息迁移能力,在传统零样本学习(Traditional Zero-shot Learning,TZSL)和广义零样本学习(Generalized Zero-shot Learning,GZSL)任务下均获得较为优良性能,为缓解类别不均衡的多模态分类问题提供了一定思路。
其他文献
移动互联网和物联网的需求日益增长,对5G无线通信提出了高频谱效率,海量连接等挑战性的要求。非正交多址接入技术(NOMA)通过非正交资源分配来容纳更多的用户,是有效应对5G挑战的解决方案之一。而稀疏码多址接入(SCMA)作为码域非正交多址接入技术的一种,以良好的兼容性,较高的频谱效率等优势脱颖而出,成为研究的热点。  在SCMA系统中,码本设计是影响系统性能的关键技术,因此,针对SCMA码本设计的复
在表面安装技术(Surface-Mount Technology,SMT)工艺流程中有一种效率低下但极其重要的的自检防错机制,该机制需要检测人员以印刷电路板(Printed Circuit Board,PCB)的位号图为基准对生产的首个产品样板进行检测,重点是元器件的极性方向。在实际检测过程中,工作人员仅能在元器件数量较少的情况下进行有效检测。为了使检测人员能对产品样板实现更高效的检测,本文提出了
近些年来,人脸识别取得巨大的进步,这得益于深度神经网络的飞速发展,尤其是卷积神经网络的发展。卷积神经网络在人脸识别领域具有很好的鲁棒性,适应多场景的识别,在一定程度上可以有效减少因为光线、角度等导致的识别率下降。卷积神经网络在人脸识别任务中发挥着重要的作用。本文以基于卷积神经网络的人脸识别算法为研究课题,重点研究了人脸识别中的深度网络、损失函数等问题。  一个高效的特征提取网络对于人脸识别任务具有
学位
在数字图像拍摄过程中,当拍摄对象与感光元件的空间频率接近时,往往会出现摩尔纹现象。由于电子屏幕具有网格状采样的特点,因此拍摄电子屏幕更易出现摩尔纹现象。本文称相机拍摄电子屏幕时出现的摩尔纹为屏幕图像摩尔纹,其色彩和形态多变,与图像内容难以区分,严重影响了成像的视觉质量。当今时代,用相机记录屏幕内容已成为一种快捷、重要的记录方式,因此研究屏幕图像摩尔纹的去除算法具有重要意义。  目前屏幕图像摩尔纹去
学位
道路交通标志是保证驾驶安全、交通顺畅所设置的指示性标志,遵守交通标志的指示是每个驾驶员的义务,然而由于漏看或误判交通标志所造成的交通违章时有发生,甚至有时还会造成严重的交通事故,危害人身财产安全。因此,交通标志检测算法的研究显得尤为重要。随着计算机视觉理论不断发展,卷积神经网络被广泛应用于目标检测领域,在交通标志检测课题上得到了广泛的应用与发展。应用于无人驾驶或辅助驾驶领域的交通标志检测算法成为了
近年来声源定位技术发展迅猛,已经成为声学和阵列信号处理领域的热点问题,其在语音增强、视频会议、鸣笛抓拍、智能机器人、智能家居等领域已经被广泛应用。  声源定位技术是在模拟动物双耳效应的基础上,融合音频信号处理、阵列信号处理、机器学习、数字信号处理等多个学科的一项技术,通过麦克风阵列获取目标声源发出的信息参数,测定声源到麦克风阵列中心的距离以及方向角和俯仰角,实现对目标声源的识别、跟踪与定位。本文以
学位
近年来,面对现代化城市监控系统日益增长的多媒体数据,例如图像、音频、视频等数据,如何快速且高效地处理海量数据成为当前亟待解决的问题之一。尤其是如何精确地分析来往的行人,进而快速甄别出对人民生命财产安全有危害的人和物是完善城市安防的关键。行人属性识别技术能够根据行人图像得到行人所具有的属性。然而现有的大多数行人属性识别的方法将其看作是图像的多分类任务,将属性看作是独立的部分,忽略了不同属性之间的关联
水声无线传感器网络(UAWSNs)具有重要的实用价值,能够应用在海洋环境测量、海啸预警、海洋军事国防等领域。UAWSNs是无线传感器网络(WSNs)在水下环境的拓广。UAWSNs的水声信道情况要比陆地无线信道复杂得多,传统的WSNs的网络协议往往不能直接应用到UAWSNs中。  在UAWSNs中,水声信号传输速率低,传输延迟长,可用带宽窄,多径效应严重。移动水声通信会伴随严重的多普勒效应。为了保证
目前大多数张量填充方法均假设缺失元素的位置服从随机分布,但实际中张量数据不仅存在随机元素缺失的情况,还可能存在整条纤维或整个切片缺失的情况,即结构性缺失,此时仅利用低秩约束不足以填充这种结构性缺失,还需要针对这种结构性缺失加入其它的先验约束。为此,本文利用张量的TensorTrain(TT)和Tucker展开方式,以低秩矩阵填充和稀疏表示理论为基础,提出了一种针对既带有随机缺失又带有结构性缺失元素
学位
在许多现代通信系统中,常采用在发射机中对发射信号进行卷积编码、在接收机中对接收信号进行Viterbi译码的方式来保证通信的可靠性。其中,Viterbi译码算法能高效地纠正由于信道噪声和其他干扰因素引起的错误,是实现低误码率的关键。基于应用场景的不同,Viterbi译码器可在基于SRAM的现场可编程门阵列(SRAM based Field Programmable Gate Array, SRAM-
学位