论文部分内容阅读
聚类分析作为数据挖掘中十分重要的一个组成部分,逐渐被许多商家和企业所应用,而聚类分析在一定程度上,受到数据源中待分析数据的线性与非线性制约,在遇到数据之间存在非线性关系时难以得到比较精准的结果。本文主要针对非线性数据提出一种基于核方法的神经网络聚类算法。论文完成了以下工作:描述数据挖掘起源以及数据挖掘组成部分,分析了经典数据挖掘步骤,并介绍了相关内容。还对数据挖掘中的聚类算法进行了关键性研究,对比了数种经典聚类算法,并得出神经网络聚类中的SOFM算法相比较其他算法而言有着较高的可靠性,如信息处理的并行性、信息单元的互连性,非线性,能够很好的处理普遍存在的非线性问题,具有较强的自学习、自组织与自适应性等等。并详细研究了核方法,并对常用的核方法进行了介绍。对核函数性质以及选择核函数原则进行了细致的分析,通过对三类重要的核函数进行比较,选择了其中的平移不变核函数,因为高斯核函数的特征空间是无限维的,所以任意样本在映射到特征空间后必将是线性可分的,故而将高斯核函数作为算法改进中所使用的核函数。
本文在对核方法进行了较为详细的了解与学习后,对引入核方法之后的KSOFM算法做出了详尽的说明,并设计出了一种新型的基于高斯核函数的神经网络聚类算法KSOFM算法。通过前期对聚类算法以及核方法的研究,在理论上说明了,将输入空间中的数据映射到高维特征空间中,然后在高维特征空间中进行聚类,与一般的映射后再聚类法相比,KSOFM算法精炼许多,在时间复杂度上也较低,因为KSOFM不需要求出映射空间,实际处理的数据集还是原始数据集,只是将相似性度量函数映射到高斯核空间来满足核聚类的要求,所以相比传统的维度变换聚类得到的效果较好。为了说明设计的新算法的实效性,在MATLAB环境下对SOFM算法和改进后的KSOFM算法进行了实验仿真,其结果证明了改进后的KSOFM算法具有可行性且具有实际效果。为了能够清楚地显示聚类效果,给定数据集已经经过人工分析得出需要的聚类结果,随着高斯核函数中径向选择宽度常量σ的变化,结果也发生着明显的变化,并在某个特殊值时获得十分良好的可容误判率。