论文部分内容阅读
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题。本文提出了利用数据归一化预处理方法来改进K-means算法。在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数。实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响。