论文部分内容阅读
距离度量学习已经在回归,聚类和分类等任务上发挥了重要的作用。本文分别在核回归、大间隔最近邻分类和Fisher线性判别分类上进行距离度量的理论与算法研究。传统的核回归使用的是欧式距离,该距离将所有特征间的差别平等对待,不能很好的揭示内部结构。与欧式距离不同,马氏距离将特征间的差别分别对待,并且不受样本量纲大小的影响,可以很好的揭示内部结构。我们将马氏距离与传统的核回归相结合的模型应用于短时的交通流量预测,并使用梯度下降法进行参数估计。通过在实际交通流量数据上的实验,证明了该方法的有效性。最近提出的大间隔最近邻分类方法大幅度提高了K近邻分类的性能。但现实世界中的数据往往都呈现局部性,而大间隔最近邻分类所获得的却是一个全局度量。因此我们提出了一种新的局部度量方法——逐级度量学习的方法来进一步改进大间隔最近邻分类的性能。通过多组人工数据集和实际数据集的实验,证明了改进算法的高效性。距离度量学习的目标之一是使同类的样本之间的距离尽量缩小,不同类样本之间的距离尽量的扩大。Fisher线性判别的思想与距离度量的学习目标十分一致。在现实世界中,大多数物体都拥有多个属性,而这些属性往往又可以被分成多个组。传统的Fisher线性判别将所有的属性都归到一起进行学习。我们将多视角学习与Fisher线性判别相结合,提出了一种新的多视角Fisher线性判别。此外,传统的Fisher线性判别多类类间散度是通过每类的均值和总均值之间的差值计算的,该算法没有考虑样本分布的局部性。为了使我们提出的多视角Fisher线性判别更好得适用于多类数据集,因此我们进而将该方法与逐级度量学习相结合,提出了基于逐级度量学习的多视角Fisher线性判别。最后,通过多组人工数据集的和实际数据集的实验,证明了该算法的有效性。