论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们生产、收集数据的能力不断提高,同时人们也面临着海量的数据。激增的数据背后隐藏着许多重要的信息,如何从这些海量数据中及时发现有用的知识,提高信息利用率,成为我们所面对的重要课题。于是,人们提出了数据挖掘来提取有用的信息,从而避免“数据丰富而知识匮乏”的局面。
聚类分析是数据挖掘的核心技术之一,是分析数据并从中发现有用信息的一种手段。聚类分析的应用是非常广泛的,无论是在商务领域、工业生产,还是在生物学、web文档分类、图像处理等其它领域,都得到了有效的应用。
本文对FCM(Fuzzy C—Means)聚类算法进行了详细的介绍,并将WFCM(Weightwith Fuzzy C—Means)与PCA(Principal Component Analysis)技术相结合提出了一种PCA—WFCM算法。该算法通过PCA来计算每维数据权重,解决WFCM算法权重选取问题,与FCM算法相比该算法大大提高了聚类的效果。
由于FCM算法的聚类效果与性能很大程度上受初始中心点的制约,因此本文在Chiu算法思想的基础上又提出了一种DSOC(according to the Density of Samples to Obtain Center)算法。该算法不需要任何参数的设定就实现中心点的获取;之后再通过竞争网络对获取到的中心点进行训练,使中心点更加靠近每一类的中心。
最后,本文将PCA—WFCM算法和DSOC算法结合起来对一组油品调合数据进行分析,剔除该组数据中类别归属不明的数据,为油品调合模型的建立提供了可靠的数据。