论文部分内容阅读
该文提出了一种改进的K-最近邻分类算法。该算法首先将训练事例集中的每一类样本进行聚类,既减小了训练事例集的数据量,又去除了孤立点,大大提高了算法的快速性和预测精度,从而使该算法适用于海量数据集的情况。同时,在算法中根据每个属性对分类贡献的大小,采用神经网络计算其权重,将这些属性权重用在最近邻计算中,从而提高了算法的分类精度。在几个标准数据库和实际数据库上的实验结果表明,该算法适合于对复杂而数据量比较大的数据库进行分类。