论文部分内容阅读
本文针对传统分类方法在解决大规模数据集时存在的问题,提出了一种新的分类方法-基于核最近邻表面的分类方法。本文首先分析了该方法的基本原理和主要思想:该方法将训练集按照最近距离原则分成若干核,并使这些核包含全部的训练样本;测试集样本按照最近邻表面的原则进行标记。其基本思想是用少量的核来代替大量的训练样本,以降低大规模数据集在学习过程中对存储空间的需求。为了提高分类正确率,本文对样本与核表面之间距离的衡量标准进行选择,最终决定采用Euclid距离的四次方差作为距离的衡量标准,并对距离决策规则进行适当的调整和修正。
最后将该方法用于UCI Machine Learning Repository的部分数据集上(Iris,Sonar,Liver Disorders,Australian Card等)。实验结果表明,与现有的分类方法,如Fisher、SVM、K-近邻、BP神经网络等相比,该方法具有记忆样本数少,学习时间短,分类速度快等优点。为了进一步验证该方法的有效性,本文该方法用于Letter和USPS大规模数据集。实验结果表明,该方法在大规模数据集上降低了存储空间的需求,缩短了学习时间,优点表现更加明显。