论文部分内容阅读
不论是在非监督学习中,还是在监督学习中,相似性学习的应用是十分广泛而且是很有效的。当学习器学习了一些已经给出相似性描述的样本对,学习器就能够通过分析样本对几何接近或者接近的亲密程度来对新的样本进行准确分类或预测。相似性学习的这种特点刚好解决了没有标记样本和样本种类较多两种情况下机器学习的难题,而且给出了可行的学习算法,因而在理论和实践上引起了极大的兴趣。
本文介绍了相似性分析的意义和常见应用;介绍了常见的相似性度量,如欧氏距离和马氏距离;利用Hilbert-Schmidt算子和外积算子等工具推导出了算子值大间隔分类器的推广误差的界。还从实际问题出发提出了多核余弦分类器,并给出了其推广误差的界。同时,本文还通过最小化目标函数给出了梯度下降法的算法过程;涉及到了多类问题中的相似性学习过程:为了拥有好的预测能力,利用偏差学习的EP模型得出了训练样本中任务数和每项任务中的样本数的下界。
论文结构如下:
第一章:介绍相似性学习的背景、意义、应用和常见的相似性度量。
第二章:主要给出了相似性学习的两种分类器的推广误差的界。介绍了相似性学习的三个假设,建立了相似性学习的基本框架。本章利用正的Hilbert-Schmidt算子来构造分类器,推导出了不依赖于Rademacher复杂度的推广误差的界。从几何直观的实例中提出了多核余弦相似性分类器,并推导出了它的推广误差的界。
第三章:给出了相似性学习的算法。利用得出的推广误差的界确定了目标函数,证明了目标函数的极小值点就是它的最小值点,从而提出了梯度下降法。给出了当损失函数为hinge损失函数时的具体算法。
第四章:介绍了多类问题中的相似性分析和偏差学习的EP模型。在偏差学习的EP模型中,得出了训练样本集中任务数和每个任务中样本数各至少为多少时,才能保证期望风险与经验风险以高概率接近,从而拥有好的推广性能。
第五章:是对本文工作的总结和展望。