非线性特征提取及其在基于案例推理中的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:pang316860297
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习的一个中心问题是如何寻找有效的特征,从而为待解决的问题建立模型.这其中有两种做法:一种是从已有的属性集中挑选一个属性子集;另一种是对已有属性集进行变换,产生新的特征集.前者称为特征选择;后者称为特征提取.本文讨论特征提取问题.无论是特征选择还是特征提取,都会遇到特征评价问题.特征评价方法通常与领域有关.特征评价方法一般分两类:一类与目标输出无关,仅与输入属性的分布相关;另一类不仅与待解决问题的输入属性有关,而且跟目标输出相关.在与输出无关的特征提取方法中,主成分分析(Principal Component Analysis,PCA)是应用最广的一种方法.它的基本原理是通过坐标变换,用尽量少的特征(主成分)代表尽量多的信息(方差).PCA的一个不足是只能做线性变换,然而,有很多现实问题是非线性性的,传统的PCA不能很好地处理这类问题.基于核的主成分分析(Kernel PCA,KPCA)是解决这类问题的一个方法."特征分解"是KPCA计算的主要部分,然而,KPCA的"特征分解"的计算复杂度与训练样本数量有关.当训练样本变大时,"特征分解"的计算时间增长得很快.为了解决这一问题,本文提出一个基于聚类的KPCA算法,并给出了该算法的误差分析,推导出它与KPCA的理论误差以及控制误差的充分条件.实验表明,基于聚类的KPCA算法能够大大减少"特征分解"的计算时间.当训练样本很大时,聚类的时间代价远低于"特征分解"中节省的时间.同时,大量的对比实验的结果表明,在"等效训练样本"的前提下,该算法与KPCA的误差比起其它加速算法与KPCA的误差要小.PCA和KPCA已经在大量的应用中获得了成功,但是,在很多的应用中,PCA和KPCA求出的特征并不是最有效的特征,导致提取出来的特征不能有效地完成后续的分类或预测等任务.一个重要的原因是它们对特征的评价与输出目标无关.例如,基于案例推理(Case-Based Reasoning,CBR)的一个关键技术是案例间的相似性度量,这涉及特征提取问题,要求特征与案例的解之间有好的关联.本文提出了一种基于核的案例相关分析的方法,通过这种方法提取的特征可以准确地在案例库中检索案例.这种方法首先把案例库映射到特征空间,在特征空间中利用最大相关准则提取最重要的特征.实验结果验证了该方法的有效性.在基于聚类的KPCA算法中,很难求出特征空间中的聚类中心的原像,在计算"测试点投影"时,需要计算测试样本与训练样本的核函数,运算规模与存储规模还是与训练样本的数量有关.本文讨论了高斯核下的原像问题.在L<2>空间解出了高斯核对应的映射泛函,并证明了L<2>模意义下,原像满足的条件.
其他文献
本文研究了非凸单个守恒律仞边值问题弱熵解的结构和波的行为,分别在流函数含有一个拐点,初始值为具有有限个间断点的分段常数函数和边界值为常数及流函数具有有限个拐点,初始值
利用课本中的历史图片进行教学,能激发学生学习历史的兴趣,降低学生学习的难度。在高中历史学习中要进行大量的、抽象思维的思考,常让很多学生感到特别疲惫。而大量真实、直
近些年来,很多作者证明了大量的不动点定理并且应用于各种问题的研究,其中包括一些泛函形式的锥拉伸与压缩不动点定理.  本文第1章对这类问题的研究现状进行了简要的概述. 
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
图G的标号着色L(2,1)-labeling是一个从顶点集V(G)到非负整数集的函数f,满足条件:(1)|f(u)-f(v)|≥2,若uv∈E(G);(2)|f(u)-f(v)|≥1,若d(u,v)=2.将所有正常L(2,1)-标号的集合记作£(2,1)
随着现代社会交通工具的发展,交通控制系统显示出越来越重要的作用.传统的交通控制系统主观因素比较强,经常出现错误,容易引起纠纷,并且效率比较低.人民生活水平的提高使交通
随着城市交通流量日趋加重,交通安全随之成为社会倍受关注的问题.在交叉路口处发生交通事故率相对较高,对行人和车辆安全构成很大威胁,所以提前预知路口对于减少交通事故有很
计算机病毒防治是计算机信息安全领域的重要课题。随着全世界网络化的程度越来越高,病毒给全世界造成的经济损失还会越来越大。目前反病毒技术大都是杀毒软件随着病毒的出现而
人脸识别作为一种生物特征识别方法相比于传统身份识别方式有明显优点,近年来受到了广泛的关注,成为应用数学、统计学习、模式识别、计算机视觉等领域的研究热点。基于局部特
全文主要分三章: 第一章,ρ*混合随机变量组列的若干收敛定理 自1990年Bradley提出ρ*混合的概念以来,由于它在实际生活中的广泛应用,其收敛性质引起了国内外很多极限理论