论文部分内容阅读
随着大数据时代的来临,每个人每天都要浏览不同种类的大量信息,而图像这种标新立异的信息表达方式,由于它的直观性和容易理解等优点,因此它的出现频率很高,这就使得图像的研究在人们的生活中日益重要。涉及到图像的应用领域有很多,如图像标注、图像聚类、图像检索等,如何有效地解决这些技术中的关键环节,一个好的图像表示变得至关重要。在图像处理技术中涌现了很多图像表示方法,包括低级表示和高级表示,而高级表示由于其在图像理解上更接近人的视觉行为,因此得到广泛应用,如主成分分析、稀疏编码、非负矩阵分解以及低秩重构等。然而,这些学习方法都是基于训练数据和测试数据服从同一分布的假设,对其进行统一训练,导致学习得到的模型在测试集上泛化性能很低。并且由于在提取图像的高级语义时,往往没有考虑到现实图像中存在的遮挡、腐蚀以及与语义表示无关的信息等问题,而是直接采用高斯分布来估计重构残差,因此使得模型鲁棒性很低。为了解决训练集与测试集分布不一致的问题,迁移学习作为一种新的机器学习方法诞生了。针对图像表示问题,迁移学习领域中提出一种基于特征表示的迁移学习方法,把服从不同分布的数据集映射到同一特征空间上,使得在新的特征空间下,不仅较好地描述了图像的语义信息,还使得二者的分布差异大大缩小,从而解决了训练模型的泛化问题。迁移学习的这种新特性,不仅从人工智能的角度模拟了人的智能行为,还使得不同领域之间的数据不再相互独立。在大数据时代下,不仅可以实现不同数据领域之间的知识共享,还能用已经标注好的数据所训练得到的模型去标记新的数据,大大节约了由于大量数据涌现耗费的昂贵手工标注成本。其次,由于重构残差服从高斯分布这一假设并不能应对日常生活中出现的各种异常情况,因此基于统计学中极大似然的思想,考虑通过调节重构残差的概率密度函数中的参数来拟合现实样本,从而大大提高了模型的鲁棒性。从模型学习的角度,引入一个噪声矩阵自动捕获图像中的无关信息,也可以大大减少其对图像表示过程的干扰。从以上两点出发,本论文在已有的基于特征表示的迁移学习方法的基础上,提出了两种不同的迁移学习算法。本文的主要工作和创新点如下:基于极大似然的思想,本文提出一种基于迁移鲁棒稀疏学习的图像表示方法。该方法通过引入一个权值矩阵来拟合现实样本的残差分布;在稀疏编码的模型上学习图像的高级语义;采用迁移学习中度量不同领域数据分布差异的方法,即最大均值差异矩阵,通过对其最小化来缩小在新的特征表示下二者的分布差异;利用图拉普拉斯矩阵保留数据集的几何特性。该方法的主要创新点在于:一是权值矩阵的引入,减少了异常点对编码学习和字典学习的影响;二是在鲁棒字典学习的过程中,采用字典正则化参数代替原迁移稀疏编码模型中的字典约束,从而将其转化为无约束优化问题,避免了拉格朗日求解法的复杂性。在几个通用的迁移学习数据集上的对比实验结果证明了所提算法的有效性和鲁棒性。从模型学习的角度,同样针对现实图像数据中存在的异常问题,本文提出一种针对图像表示的基于图和联合域适应的迁移去噪稀疏学习。和本文提出的迁移鲁棒稀疏学习模型处理异常点的方式不同,该模型通过引入噪声矩阵来捕获异常点,减少了参数的调节。该方法的主要创新点在于:一是噪声矩阵的引入,减少异常点对模型学习的干扰;二是由于原迁移稀疏编码模型仅仅考虑了不同领域之间的边缘概率分布差异,本文所提方法在其基础上进一步缩小二者的条件概率分布差异,大大提高了知识迁移能力。在多个迁移学习数据集上的实验结果表明了该方法有效地提高了迁移学习分类准确率。