论文部分内容阅读
机器学习的一个中心问题是如何寻找有效的特征,从而为待解决的问题建立模型.这其中有两种做法:一种是从已有的属性集中挑选一个属性子集;另一种是对已有属性集进行变换,产生新的特征集.前者称为特征选择;后者称为特征提取.本文讨论特征提取问题.无论是特征选择还是特征提取,都会遇到特征评价问题.特征评价方法通常与领域有关.特征评价方法一般分两类:一类与目标输出无关,仅与输入属性的分布相关;另一类不仅与待解决问题的输入属性有关,而且跟目标输出相关.在与输出无关的特征提取方法中,主成分分析(Principal Component Analysis,PCA)是应用最广的一种方法.它的基本原理是通过坐标变换,用尽量少的特征(主成分)代表尽量多的信息(方差).PCA的一个不足是只能做线性变换,然而,有很多现实问题是非线性性的,传统的PCA不能很好地处理这类问题.基于核的主成分分析(Kernel PCA,KPCA)是解决这类问题的一个方法."特征分解"是KPCA计算的主要部分,然而,KPCA的"特征分解"的计算复杂度与训练样本数量有关.当训练样本变大时,"特征分解"的计算时间增长得很快.为了解决这一问题,本文提出一个基于聚类的KPCA算法,并给出了该算法的误差分析,推导出它与KPCA的理论误差以及控制误差的充分条件.实验表明,基于聚类的KPCA算法能够大大减少"特征分解"的计算时间.当训练样本很大时,聚类的时间代价远低于"特征分解"中节省的时间.同时,大量的对比实验的结果表明,在"等效训练样本"的前提下,该算法与KPCA的误差比起其它加速算法与KPCA的误差要小.PCA和KPCA已经在大量的应用中获得了成功,但是,在很多的应用中,PCA和KPCA求出的特征并不是最有效的特征,导致提取出来的特征不能有效地完成后续的分类或预测等任务.一个重要的原因是它们对特征的评价与输出目标无关.例如,基于案例推理(Case-Based Reasoning,CBR)的一个关键技术是案例间的相似性度量,这涉及特征提取问题,要求特征与案例的解之间有好的关联.本文提出了一种基于核的案例相关分析的方法,通过这种方法提取的特征可以准确地在案例库中检索案例.这种方法首先把案例库映射到特征空间,在特征空间中利用最大相关准则提取最重要的特征.实验结果验证了该方法的有效性.在基于聚类的KPCA算法中,很难求出特征空间中的聚类中心的原像,在计算"测试点投影"时,需要计算测试样本与训练样本的核函数,运算规模与存储规模还是与训练样本的数量有关.本文讨论了高斯核下的原像问题.在L<2>空间解出了高斯核对应的映射泛函,并证明了L<2>模意义下,原像满足的条件.