论文部分内容阅读
为解决连续属性值的离散化问题,提出了一种改进的自组织映射(SOM)聚类离散化算法,该算法利用SOM实现初始聚类,界定聚类上限;之后以初始聚类中心为样本,通过层次方法的平衡迭代规约和聚类(BIRCH)层次聚类算法进行二次聚类,解决聚类数虚高问题并确定离散断点集;最后对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据。实验结果表明,该算法在断点集数(轮廓系数提升75%)及离散精度方面(不相容度更近似0)均优于传统SOM聚类离散化算法,可有效解决大样本、高维数据离散化问题。