论文部分内容阅读
特征选择是模式分类的重要环节,它能将对分类冗余的属性从数据集中去掉。特征选择可以降低分类算法的计算复杂度,提高分类精度。类似地,数据集中也存在对分类冗余或不重要的样例,它们对分类没什么贡献。样例选择是近年来机器学习领域研究的热点问题,吸引着许多研究者的兴趣。样例选择能够去除原数据集中的冗余信息,选出数据集中重要的、尽量少的样例作为训练集训练分类器,并保证原数据信息不丢失,且提高分类器的精度和泛化能力,降低时间复杂度和空间复杂度。本文研究了针对Fuzzy KNN的压缩近邻规则,提出了基于样本熵的不确定环境下的样例选择算法。本文还研究了基于预聚类的样例选择问题,提出了基于预聚类的两阶段样例选择算法。同时对这两种样例选择方法在人工数据集和UCI数据集上进行了实验研究,实验结果显示本文提出的算法行之有效的。