论文部分内容阅读
机器学习技术被广泛应用于计算机视觉,自然语言处理,生物信息学,医疗图像分析,入侵检测等诸多领域。作为一种最主要的机器学习技术,核方法提供了一个强大的及统一的学习框架。它使得研究者专注于算法设计而无需考虑数据的属性,如字符串,向量,文本,图等。正因为具有此优点,核方法被广泛应用于不同的学习任务中,如分类,回归,聚类,排序等。众所周知,核方法的性能极大地依赖于核及其参数的选择。然而,如何选择核及其参数仍然是一个开放性的问题。因此,对核算法的探索研究有着极其重要的应用价值。本文的工作集中于设计有效的核学习算法以提高算法的性能,其贡献可以概括为如下七个方面:(1)提出了一种自适应的最优邻居核学习算法。通过假设最优核可以表示成参数化的高斯核函数或多个基核的线性组合,该算法能自适应地学习最优核参数,最优邻居核及分类器的结构参数。另外,我们从概率角度解释了该算法以及现有的核方法。根据该概率解释,我们可以很清晰地得到现有核方法之间的区别和联系。大规模的实验验证了该算法的有效性和高效性。(2)提出了一种基于迹–间距的多核学习算法。根据机器学习理论,分类器的泛化性能是最小包含球半径与间距的乘积的下界。本文中,我们不是直接最小化最小包含球半径,而是最小化它的一个近似,即散度矩阵的迹,提出了一种基于迹–间距最小化的多核学习算法。在公共测试集上的实验结果验证了该算法的有效性。(3)提出了一种基于基核半径–间距的多核学习算法。尽管基于迹–间距最小化的多核学习算法能取得较好的分类性能,它的目标函数不一定是泛化误差的上界。为了克服这个理论上的缺陷,我们首先证明了基核半径的线性组合是最小包含球半径的一个上界,并提出用基核半径的线性组合来替换最小包含球半径,得到一种基于基核半径–间距的多核学习算法。多个公共数据集和医学数据集上的分类结果验证了该算法的有效性。(4)提出了一种缺失多核学习算法。当某些样本的一些通道信息缺失时,如何利用这些不完整的数据进行多核学习是一个重要和常见的问题。为了解决这个问题,我们首先在每个样本相关的多核空间中定义基于样本的间距。然后最大化所有样本间距的最小值以期望达到更好的泛化性能。多个公共测试数据集上的实验结果验证了我们算法的有效性。而且,实验结果表明,缺失比率越高,我们算法的优越性越明显。(5)提出了一种样本自适应多核学习算法。当某些样本的一些通道信息含有噪声或者被损坏时,直接利用这些数据进行多核学习势必会影响最后的学习性能。为了克服这个问题,我们提出了一种隐多核学习算法。该算法在多核学习过程中能自动关闭那些含有噪声或者被损坏的通道,以消除它们对多核学习的影响,导致更好的学习性能。多个公共测试集的实验结果验证了该算法的有效性。(6)提出了一种多核极限机算法。我们提出了一种多核极限机的学习算法。该算法使得现有的极限机算法能自动地学习核参数。更重要的是,它也使得极限机算法能够有效地集成来自多通道的数据源信息。多个公共测试集的实验结果验证了该算法的有效性和高效性。(7)提出了一种全局和局部相似度保存的特征选择算法。我们提出了一种基于全局和局部相似度保存的特征选择框架,该框架统一了有监督,半监督和无监督特征选择。基于该框架,我们系统地研究了全局相似度保存和局部相似度保存分别对有监督,半监督无监督特征选择的影响。实验结果同时也表明了我们提出的框架的有效性。