论文部分内容阅读
大数据与深度学习的发展极大促进了图像分类技术的进步。由于深度学习的数据驱动和监督式学习特性,在训练阶段需要大规模标注样本。然而,现实世界包含数以万计的类别,人工标注需要极高人力物力,且对于某些稀缺类别,往往难以获取充足样本支撑训练。为此,无需标注样本即可对新类别进行预测的零样本学习(Zero-shot Learning,ZSL)逐渐受到关注。零样本学习模仿人类可利用辅助语义信息对未见事物进行推断的过程,旨在借助中间层类别语义特征,寻求特定嵌入空间建立视觉模态和语义模态的有效映射进行跨模态语义对齐,进而实现从可见类到未见类的知识迁移,是机器学习的一种更加开放和动态的设置。本文基于不同跨模态语义对齐空间,分别从流形学习和类别均衡学习角度提出两种模型用于解决零样本图像分类任务。
首先,本文基于不同模态所共享类别语义结构信息呈流形分布的假设,从语义嵌入空间和公共嵌入空间出发提出两种算法,分别为基于语义嵌入空间的ME-ZSL算法和基于公共嵌入空间的MCCA-ZSL算法。ME-ZSL以语义空间作为嵌入空间从不同模态的类内紧密度、类间分离度以及类别监督下的视觉空间局部结构特性保持设计流形约束;MCCA-ZSL则在公共空间挖掘视觉语义模态内在关联,根据类别语义相关性设计流形方案约束不同模态的类间相对分布关系,及类内不同样本相对距离关系,构建具有良好判别性的公共模态空间,最终可转化为奇异值分解问题。两种算法均将流形约束显式应用于目标函数中,具有高效且可解释性好的闭式解。在三个主流数据集AwA1,CUB和NAB上进行充分实验验证了算法有效性。
其次,本文以视觉空间作为嵌入空间,从类别样本不均衡角度思考零样本学习问题,提出基于跨模态语义引导的类别均衡模型(Semantics-guided Class Imbalance Learning Model, SCILM)。在类别层面,设计了一种类别均衡的训练模式,每轮迭代从每类随机抽取相同数量的样本组成一个训练批次,确保少样本类别每轮训练的贡献度,并从类别层面进行视觉语义跨模态对齐;在样本层面,基于语义引导设计注意力机制,关注所抽取样本个体实例的表征能力差异,获取更具有层次性和鲁棒性的类别视觉原型表征。设计实验较为全面地分析了SCILM在三个存在类别样本不均衡问题的基准数据集的实验结果,证明SCILM以较为简洁的网络结构,可改善模型对于少样本类别的类间信息迁移能力,在传统零样本学习(Traditional Zero-shot Learning,TZSL)和广义零样本学习(Generalized Zero-shot Learning,GZSL)任务下均获得较为优良性能,为缓解类别不均衡的多模态分类问题提供了一定思路。
首先,本文基于不同模态所共享类别语义结构信息呈流形分布的假设,从语义嵌入空间和公共嵌入空间出发提出两种算法,分别为基于语义嵌入空间的ME-ZSL算法和基于公共嵌入空间的MCCA-ZSL算法。ME-ZSL以语义空间作为嵌入空间从不同模态的类内紧密度、类间分离度以及类别监督下的视觉空间局部结构特性保持设计流形约束;MCCA-ZSL则在公共空间挖掘视觉语义模态内在关联,根据类别语义相关性设计流形方案约束不同模态的类间相对分布关系,及类内不同样本相对距离关系,构建具有良好判别性的公共模态空间,最终可转化为奇异值分解问题。两种算法均将流形约束显式应用于目标函数中,具有高效且可解释性好的闭式解。在三个主流数据集AwA1,CUB和NAB上进行充分实验验证了算法有效性。
其次,本文以视觉空间作为嵌入空间,从类别样本不均衡角度思考零样本学习问题,提出基于跨模态语义引导的类别均衡模型(Semantics-guided Class Imbalance Learning Model, SCILM)。在类别层面,设计了一种类别均衡的训练模式,每轮迭代从每类随机抽取相同数量的样本组成一个训练批次,确保少样本类别每轮训练的贡献度,并从类别层面进行视觉语义跨模态对齐;在样本层面,基于语义引导设计注意力机制,关注所抽取样本个体实例的表征能力差异,获取更具有层次性和鲁棒性的类别视觉原型表征。设计实验较为全面地分析了SCILM在三个存在类别样本不均衡问题的基准数据集的实验结果,证明SCILM以较为简洁的网络结构,可改善模型对于少样本类别的类间信息迁移能力,在传统零样本学习(Traditional Zero-shot Learning,TZSL)和广义零样本学习(Generalized Zero-shot Learning,GZSL)任务下均获得较为优良性能,为缓解类别不均衡的多模态分类问题提供了一定思路。