论文部分内容阅读
度量是机器学习领域中的热点问题之一,很多机器学习算法的性能都严重依赖于数据的度量(如KNN算法)。度量学习作为一种学习与特定任务以及数据相关的度量方法已被广泛用于分类、聚类和信息检索等领域。随着机器学习理论的发展和学习任务的复杂化、多样化,度量学习也取得了众多成果并形成了一个庞大的框架。但这些算法大多是基于向量的1D算法,当处理具有结构的矩阵数据时也要将其向量化后进行处理,这就忽略了矩阵数据内在的空间结构信息。为了利用数据内在的空间结构信息,最直接的方法是直接使用矩阵数据进行计算,即基于矩阵的2D算法。自Yang等人将向量主成分分析(1D-PCA)推广至面向图像的2D-PCA以来,众多基于向量的1D形式算法已经被相继推广到其对应的2D形式。虽然从宽泛的角度上来说已经出现了一些2D的度量学习算法,但这些已有的2D算法并不具有通用性,而且度量学习中比较经典的基于成对约束的全局度量学习算法仍然没有其相应的2D形式。本文在基于成对约束的全局度量学习算法的基础上提出2D度量学习算法。其主要特点是利用矩阵数据进行计算,并通过结构化的度量矩阵体现矩阵数据的空间结构信息,并通过实验证明,其在处理图像数据时获得了较原1D方法更好的性能。另一方面,相比传统1D算法,尽管2D算法在处理矩阵数据时取得了较好的结果,但仍有其不足。主要表现在:(1)2D算法几乎都是线性的,因此对非线性数据处理的能力有限;(2)2D算法的空间结构信息利用仍不够充分。本文针对不足(1),通过核方法进行改进,但相对于1D算法,2D算法因难以利用表示定理而导致核化困难,因此本文绕过表示定理,通过改变度量获得一个简洁的核化方法。本文针对不足(2),通过在核空间对空间结构信息进行补偿的方式来缓解。但这需要在核空间中描述矩阵数据的空间结构,如果使用隐式核进行核化会导致矩阵数据空间结构可能的扭曲,从而使对空间结构信息的描述和利用变得困难;如果使用显式核进行核化,会导致维数灾难而失去隐式核的优势。因此本文采用一个显式、等维且各分量非耦合的映射,从而自然地描述出矩阵数据在核空间中的结构。并且幸运的是存在众多符合以上要求的显式核(如1Bellinger核和欧拉核)和隐式加性核(如Intersection核、JS核和χ2核)的近似显式形式。本文以欧拉核作为样例,首次尝试将矩阵的核化及其在核空间的空间结构信息补偿。尽管存在若干空间结构信息的补偿方法:空间结构信息约束,图像距离度量等,本文围绕现有的图像欧氏距离加以阐释,从而为矩阵数据构建出对应的空间结构化欧拉核。并通过实验证明其有效性。