论文部分内容阅读
样本之间相似性的度量是模式识别领域所研究的核心问题之一,特征变换和测度学习在模式识别中具有十分重要的意义,对很多分类和聚类算法的性能有着决定性的影响。传统的欧氏距离虽然使用简单方便,但是在很多情况下,无法准确度量两个样本之间的相似性。通过特征变换,可以得到样本新的表示以及样本间更合适的距离测度,更有利于后续处理,如对样本进行聚类和分类等,不降低维数的测度学习算法通常是将样本从输入空间映射到一个维数相同的新空间,而具备降维能力的测度学习算法则是将样本从输入空间映射到一个较低维的新空间。近年来距离测度学习算法的研究成为模式识别与机器学习领域的一个研究热点。此方面的研究在图像与文本的检索、标注与分类,人脸、数字识别等领域有着广泛的应用。本文针对距离测度学习理论以及其在实际问题中的应用这一课题展开研究,首先在广泛进行文献调研的基础上总结了目前已有的与本领域相关的工作。同时一方面在理论上提出新的距离测度学习算法,另一方面针对目前已有的距离测度学习算法在实际应用中存在的问题设计改进方案。本文的研究内容和贡献主要为以下几点:1.对原始特征空间的距离测度学习问题,首先对已有的工作进行了总结概括,重点对基于样本对约束限制条件这类方法进行了介绍。针对此类方法中的很多算法在特征维数高的情况下运算量较大以及训练样本少影响算法性能的问题,我们提出了一种在保持甚至提高分类效果的基础上降低运算量的测度学习框架,该框架通过对特征进行分解,再对分解得到的各特征子集分别进行距离测度学习,在计算距离时对各子测度求取的距离根据每个子测度中样本的类内与类间离散度之比进行加权求和,以此作为样本间的距离度量。在图像和视频关键帧上的分类实验证明这种方法在保证距离测度学习算法性能的基础上能有效降低学习时间;2.对目前已有的子空间学习算法进行了回顾,针对判别式近邻嵌入算法在标注样本少、特征维数高的情况下出现的测度矩阵过拟合导致的算法性能下降问题,提出了自适应半监督区分式近邻嵌入算法,我们提出的算法能够有效解决标注样本过少的情况下距离测度矩阵的过拟合问题,将其应用于图像检索系统中的相关反馈过程中,根据反馈中样本正负例个数之比自适应调整未标注样本对距离测度学习过程的影响,该算法应用于图像检索系统中能够有效提高系统的检索精度;3.将基于图的半监督学习和距离测度学习过程相结合,提出了一种样本标号-距离测度同步学习算法,在迭代过程中一方面利用学习得到的样本类别标号指导距离测度学习,另一方面利用学习得到的距离测度改进建图过程中样本间的距离度量,最终达到改进半监督学习的建图过程,提高样本类别预测准确率的目的。