论文部分内容阅读
核方法是一种常用的模式分析方法,其原理是通过一个非线性映射把线性不可分的问题转化为高维特征空间中的线性可分问题,从而可以使用线性算法处理问题,且空间中的内积可以直接利用核函数来计算。核方法性能的优劣很大程度上取决于核函数的选择正确与否,因为不同的核函数在映入的高维空间中生成不同的结构。此外,当核函数的类型选定后,核参数的选择也对算法的性能有很大影响。因此,如何选择核函数以及核参数一直是机器学习领域内广为关注的热点问题。核对齐旨在度量两个核函数之间一致性的程度,是一种核函数选择方法,常用来为特定的学习问题选择合适的核函数。用核对齐选择核函数的优点在于只需要计算对齐值以使核函数适用于学习问题,而与具体的分类器训练过程无关。在核对齐概念被提出来以后,很多学者对核对齐进行了改进、扩展和应用。本文基于核对齐主要研究了模糊核的选择及其在异构数据属性约简中的应用,多标记数据的核函数选择及其特征选择等问题。主要研究内容如下:(1)提出了基于核对齐选择模糊核的新方法。在模糊决策系统中定义了一种新的理想核,并构建了一种模糊核对齐模型。通过最小化定义的理想核和属性空间中的模糊核之间的模糊对齐值选择模糊核。为了验证有效性,证明了支持向量机分类误差的上界随着模糊核对齐值的减小而减小。另外,进一步将提出的模糊核选择方法应用于异构数据的属性约简中。实验结果表明,提出的基于模糊核对齐的异构数据属性约简方法是有效的。(2)基于核化的模糊粗糙集提出了一种新的分类算法。把核化的模糊粗糙集中的正域转化为样本到分类超平面的距离之和,通过最大化正域得到一个求解分类超平面的优化问题。实验结果表明,提出的基于核化模糊粗糙集的分类算法是有效的。(3)基于核对齐提出了一种为多标记学习选择核函数的方法以及一种改进的分类器链多标记学习算法。首先,为多标记学习数据集定义了一个合适的理想核,并通过最大化特征空间中定义的线性组合核和理想核之间的对齐值确定组合核中的权重系数来选择核函数。另外,通过考虑局部核对齐标准对我们提出的方法进一步进行了改进。其次,在给定核函数的情况下,分别通过最大化核函数和标记空间中每个标记对应的理想核的凸组合之间的对齐值,和直接计算核函数与每个理想核间的对齐值给出分类器链的顺序。实验结果证明了基于核对齐提出的这两种算法的有效性。(4)提出了一种基于核对齐的多标记数据的特征选择方法。首先,将标记空间中的理想核定义为由每个标记定义的理想核的凸组合,特征空间中的核函数定义为每个特征对应的核函数的线性组合。其次,通过最大化线性组合核与理想核之间的核对齐值同时学习两个核函数中的权重,并将学到的标记权重作为标记重要性的程度。最后,根据线性组合核中的权重对特征进行排序,并删除权重很小的特征。提出的特征选择方法可以自动学习标记的重要性程度,并通过实验比较证明了该方法的有效性。