论文部分内容阅读
随着社会进步迅速不断加快,经济水平的日益提高。工业过程在信息化技术的引领下,整个生产过程出现了质的飞跃,在生产线上出现无人监督无人操作的现象。人们从体力劳动中脱离出来,更多的从事脑力的劳动,企业摆脱了高烟囱的时代。一方面,随着市场的竞争越来越激烈,企业必须从竞争中求得胜利,必须加强自身实力,而那些在实践过程中产生的数据则变得非常有意义;另一方面,企业在生产过程中往往是要通过这些数据作为企业追求利润和改良工艺的研究基础。因此,数据挖掘便随之而产生,它主要是从在数据库中提取企业或是事业单位所需要的信息,它是一种技术手段,然而这些数据集或是模糊的,或是随机比较强性,这种方法受到越来越多的关注。模糊C均值聚类算法是数据挖掘中应用比较广泛的算法之一,但是也存在着一些问题和不足。本文深入分析了模糊C均值聚类算法中的问题,主要完成了几个工作:1.模糊C-均值聚类(FCM)算法是主要是针对特征空间中的点集,普遍是适合于凸形数据集,而不适用凸形。但是在适用于非凸形的许多聚类算法中,同时处理高维数据,结果是比较差的。马氏距离是为了区别不同样本,根据通过样本到各类的距离,判断样本属于那种类别,它在非凸形数据集,高维数数据集中可以是使用。本文针对上述缺点,提出了一种基于马氏距离的改进FCM算法。2.针对FCM算法存在容易陷入局部极小值和对初始值敏感的缺点,提出了一种基于人工萤火虫(GSO)的模糊C聚类(GSFM)算法。该算法引入了全局寻优能力强的人工萤火虫算法来求得最优解作为FCM算法的初始聚类中心,然后利用FCM算法优化初始聚类中心,最后求得全局最优解,从而有效克服了FCM算法的缺点。3.针对过程工业数据变量多、数据维数高、非线性等特点,一般的数据挖掘算法无法解决这些问题。本文提出了一种基于局部平滑性通用增量流形(GIML)的人工萤火虫模糊C聚类(GSFM)算法。该算法首先采用局部平滑性的通用增量流形算法对原始数据进行增量降维,再应用人工萤火虫模糊C聚类(GSFM)算法对低维空间数据聚类。通过实验仿真,验证了本文提出算法的有效性和可行性。