【摘 要】
:
当前,深度学习技术迅速发展,在计算机视觉、自然语言处理、语音识别等领域取得了举世瞩目的成果,但是大多数深度学习模型的训练依赖于大量标注样本。在现实情景中,某些样本的标注非常困难,而较少的样本也不足以表达某个类别的特征分布。然而,人类可以在见过极少的样本后快速地识别出属于该类别的新样本,研究者们从人类这种快速学习的能力中受到启发提出了小样本学习问题,其目的就是要学习一个具有良好泛化性能的模型,能够在
论文部分内容阅读
当前,深度学习技术迅速发展,在计算机视觉、自然语言处理、语音识别等领域取得了举世瞩目的成果,但是大多数深度学习模型的训练依赖于大量标注样本。在现实情景中,某些样本的标注非常困难,而较少的样本也不足以表达某个类别的特征分布。然而,人类可以在见过极少的样本后快速地识别出属于该类别的新样本,研究者们从人类这种快速学习的能力中受到启发提出了小样本学习问题,其目的就是要学习一个具有良好泛化性能的模型,能够在仅给出少数样本的情况下快速地识别出各个新类别。目前,小样本学习有许多优秀方法,其中度量学习方法由于其稳定性和有效性而被广泛使用。本文将从度量学习方法入手,针对现有小样本学习方法尚未充分挖掘先验知识的问题,进一步改进特征网络和度量方式。本文设计了相应的网络模型来挖掘先验知识,并将先验知识迁移到小样本图像分类任务中,以提高模型的泛化性能。本文的主要研究内容如下:1.阐述了小样本学习的研究背景及意义,介绍了小样本学习的基本方法和理论,详细分析了各类小样本学习方法的设计思想和优劣,总结了小样本学习模型的训练优化方法和评估标准。2.在小样本图像分类中,图像中的目标位置和姿态各不相同,目标之间存在潜在的语义关联,这种潜在语义关联作为一种先验知识并没有被充分挖掘。过去的小样本学习方法直接使用全局特征来表示样本,忽略了样本间存在的潜在语义关联,导致了目标匹配歧义的问题。针对这一问题,本文设计了一种基于局部特征表示的语义对齐度量小样本学习方法,能够充分地挖掘样本间的潜在语义关联,消除样本匹配时的歧义。实验结果表明,该方法相较于现有的全局特征表示的小样本学习方法具有一定的优势。3.图像样本的语义标签特征和包含类别关系的知识图被认为是高层抽象特征,它概括了图像中的目标属性和图像所属类别之间的关系。此外,语义特征空间和图像视觉特征空间具有较强的互补性。因此,为了充分利用这类有效的先验知识,本文设计了一种基于语义标签特征迁移的小样本学习网络,它能够将语义特征映射到视觉特征空间中,并与视觉特征进行融合后用于小样本图像分类。实验结果显示,该方法大幅度提高了小样本图像分类的准确率,证明了采用语义视觉多模态特征相较于过去单模态特征的优越性。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)在交通管理、智能监控、智能建筑、军事侦察、环境监测领域都有着广泛的应用。无线传感器节点的电池能量有限,特别是在特殊监测的环境中,更换电池的难度增加,导致电池的能量消耗殆尽,网络质量变差。因此,如何延长WSN的寿命,保证节点的能量供应是尤为重要的研究话题。此外,随着网络规模的不断增大,节点间传输数据时产生的干扰也越发严重,由于无
在大数据驱动下的数字化社会中,个人的身份认证变得尤为重要,在此背景下,越来越多的身份认证方式应用在各个领域。掌纹识别作为一项新兴的生物特征识别技术,在过去的二十年里,多种传统掌纹识别方法被提出应用于相关场景中。近年来,深度学习的兴起为多项任务实现了新的突破,掌纹识别也逐渐在深度学习领域展开研究。然而,目前大多数深度掌纹方法往往只是简单的使用存在的经典神经网络完成识别任务,并没有充分的学习掌纹本质特
视觉问答是一种跨模态分析推理任务,其目的是回答基于图片内容提出的自然语言表述的问题。一个完整的视觉问答过程通常被分为三个过程:特征提取、特征选择与融合、预测分类。其中特征选择与融合过程负责跨模态特征交互和对齐,是视觉问答任务的核心。为了实现跨模态特征的更细粒度交互与筛选,本文对视觉问答的特征选择与融合算法展开研究。本文的主要工作如下:(1)现有的视觉问答模型普遍使用注意力机制来选择跨模态输入中的关
随着互联网的发展,越来越多的创作者在社交媒体上发表文章。如何从大量的多媒体文章中自动过滤出高质量的内容,是信息推荐、搜索引擎等系统的核心功能之一。然而,现有的方法存在三个局限性:(1)已存在的方法一般将内容建模为词序列,从而忽略了长距离单词依赖以及非连续短语。(2)由于现有的方法大多只关注文本内容,忽略了社交媒体平台上的内容具有多模态信息(如:文本、图像)。(3)它们依赖大量人工标注的数据来训练质
迁移学习是一种利用从源领域数据中提取的模型对目标领域数据进行辅助训练的方法,旨在解决分布不同以及标记缺失的目标领域训练问题。已有的迁移学习方法大多基于特征表示学习将不同领域中的数据特征映射到一个不变的特征空间,从而增强目标领域训练。在基于特征表示学习的迁移过程中,其目标函数通常需要从多方面来进行领域间的分布差异度量,常见的有边缘分布、条件概率分布以及类别分布。现有的方法对不同的特征差异度量采取固定
目标检测是目前计算机视觉中重要且基础的问题,有广泛的应用背景和实用价值。该任务是在输入图像中定位目标,并在图像中识别出每个物体的类别和位置。近年来,随着大规模数据的出现以及计算机算力的不断提升,具有强大数据拟合能力的深度神经网络方法逐渐成为目标检测研究领域中的主流方法。在现有的目标检测方法中,检测器实现了先进的性能。但是,当前目标检测模型对上下文信息和多尺度信息感知能力仍存在提升的空间。另外,现有
推理对于人工智能的发展起着至关重要的作用,早期的人工智能主要就是依赖于逻辑推理能力。而模糊推理作为推理概念的延伸,有着较为广阔的适用领域。在此基础上,直觉模糊集的提出又丰富了模糊推理的内涵。以往的普通模糊集在表达具有模糊性的信息上具有局限性,而直觉模糊集在表达这样的信息有着普通模糊集所无法比拟的优势。目前在模糊推理领域上主流的算法有,CRI算法,全蕴涵三Ⅰ算法等。但是这些算法局限于普通模糊集,应用
大规模人群疏散仿真技术能够对行人的运动行为模式进行分析、模拟以及预测,在一定程度上减少了公共安全隐患。办公楼、商场等大型建筑物内普遍设置有疏散标志等辅助设备,这些设备在紧急情况下可以为人群提供路径指引和疏散信息,从而提高疏散效率,由此研究可行的受引导人群疏散仿真(Guided Crowd Ev acuation)方法具有重要的理论和现实意义。当前受引导的人群疏散仿真方法较少考虑行人的情绪以及情绪在
高光谱图像具有很高的光谱覆盖范围,可以准确地识别地物信息,但是拥有丰富光谱信息的同时高光谱图像空间分辨率普遍较低,因此高光谱与多光谱图像融合成为了遥感图像处理的重要课题之一。目前深度学习在图像领域获得了不错的成果,在遥感图像融合问题上同样表现优异。然而,现有算法忽略了两个问题:1)原始高光谱图像和多光谱图像之间存在巨大尺度差距,2)对光谱信息重建的关注不足。本文对于上述问题提出了针对性的解决方案,
显著性目标检测的目的是从某个给定的场景中提取出最吸引人注意的物体,该研究不仅在图像分割、目标识别等领域有所贡献,还被应用于无人驾驶、目标追踪等高科技领域。目前提出的显著性检测算法大多基于2维RGB图像和3维RGBD图像。随着4D光场相机的蓬勃发展,显著性目标检测开始向4D空间拓展。早期的光场显著性检测算法主要依赖人工提取特征信息,后期随着深度学习网络的发展,研究者们开始尝试搭建深层神经网络检测光场