论文部分内容阅读
信息技术和互联网技术迅速发展,电子商务、工业制造、生物医疗等各领域均进入“大数据时代”,获取的数据规模日益增大,更新速度急剧加快,利用数据挖掘算法构建分类模型时面临数据量大、训练速度慢、运算和存储要求提高等问题。样本选择通过识别训练集中冗余样本和噪声样本,仅保留支持分类器分类效果的有效样本,在缩减数据规模的同时提高分类模型性能,因此已成为目前约减数据规模的重要方法之一,而样本选择过程也成为针对大数据样本分类建模的必要的预处理过程。 本文针对现有样本选择算法中存在的不能有效地选择凹面部分的样本点等问题,基于支持向量机(Support Vector Machine, SVM)分类模型展开样本选择算法研究。论文首先综述了样本选择算法研究现状及其分类。其次,结合最近异类样本概念,提出了基于最近异类的 NES样本选择算法,确定每个样本点的最近异类样本,并将具有相同最近异类的样本划分到同一子集中,从而将原始训练集划分成若干个相互独立的样本子集,并行地在各样本子集中进行样本选择操作,有效提高了样本选择效率,主要选择位于分类决策面附近的样本点,提高了样本压缩率,实验结果表明该算法能够选择出确实有效的SVM支持向量候选集。然后,在基于最近异类子集划分的基础上进一步提出θ-Net概念,设计了基于θ-Net的 NENet样本选择算法,改进子集中的样本选择策略,通过确定每个子集中的θ-Net选择位于类分类决策面附近的SVM支持向量候选集,该算法不仅保留了同类数据的凸面样本点,同时保留了位于凹面的样本点,保证了算法在类边界复杂的情况下能够有效地选择样本构建分类模型,实验结果表明该算法具有较优的数据压缩率,能利用较小的样本规模获得较高的分类准确率。