论文部分内容阅读
聚类分析是数据挖掘领域中一个非常活跃的研究课题。自组织特征映射网络(Self-Organization Map,SOM)能够将输入数据映射到输出神经元阵列中,并保持数据集的拓扑结构和密度分布,使同类数据聚集在一起。自从SOM问世以来,人们对它的研究大多数聚焦在二维SOM上,对一维SOM的研究相对较少。直觉上,二维SOM比一维SOM能保持更多的数据集结构信息。但是,笔者发现,在把同类数据聚集在一起,把不同类数据完全分离方面一维SOM并不逊色于二维SOM。而且,在类边界识别、样本之间的相似关系表达以及类与类之间的相邻关系的表达方面,一维SOM比二维SOM更容易、更明确。为此,本论文开展了基于一维SOM聚类的系列实验研究。系统研究了一维SOM的聚类功能,着力开发出几个基于一维SOM的聚类分析方法。实验结果表明,一维SOM能像二维SOM一样对数据空间样本进行正确聚类。与二维SOM相比,一维SOM不但能保持原数据空间中类的线性可分性,而且能把数据空间中线性不可分的类映射为线性可分的类,使得一维SOM映射图中相邻数据和相邻类的关系更直观,类分界线的可视化更容易。通过系列实验,研究了神经元个数、训练参数与聚类结果之间的关系。提出了独立性、分散度和最大聚集度三个评价一维SOM训练和聚类效果的定量指标。找到了使一维SOM得到充分训练的参数取值范围。为开发基于一维SOM的系列聚类分析法奠定了基础。根据一维和二维映射图拓扑保持性的互补性,提出了基于一维和二维SOM组合图的聚类方法(CC-SOM)。使用该方法对三个典型数据集进行了聚类实验,结果表明,该方法不仅适用于球形类,对于结构复杂的非球形类也具有较好的聚类效果。针对高维大数据集聚类问题,提出了基于一维SOM最相似原型序列的聚类方法(MSPS-SOM)。实验表明,该方法具有较好的抗噪音能力和对大数据集的处理能力,能够较好地识别基于距离的类和基于密度的类。提出了样距图的概念,确立了样距图数据的获取程序和样距图的绘制及校正方法,找出了典型数据集结构特征与样距图或校正样距图形状特征的一一对应关系。在此基础上提出了基于一维SOM输出序列样距图的数据分析法(SDP-SOM)。实验表明,使用该方法不仅可以得到聚类结果,还能得到有关数据集的精细结构信息。