论文部分内容阅读
随着全球信息技术的迅速发展,大规模数据呈现于各个应用领域中。如何从这些海量数据中发现潜在知识,已经成为当前计算机领域研究的热点问题之一,数据挖掘技术的出现为解决这一问题提供了有力的工具。数据挖掘亦称为数据库知识发现,即从大规模数据中找到有潜在使用价值的隐含信息。作为一个蓬勃发展的交叉领域,其运用了许多其他学科的技术和方法,其中包括统计学理论、数据库技术、机器学习、模式识别、人工智能等。数据挖掘研究的主要内容包括关联规则、分类、预测、聚类、序列发现、异常检测等。时间序列由于其数据具有明显的时间特性,且存在于诸多应用领域中,如金融,商业,气象等,而备受研究者青睐。同时由于其具有高维数、大量噪音、幅度上存在拉伸和平移、时间轴上易伸缩,并且有线性漂移和不连续点等特征,为挖掘工作带来了很大挑战。目前已有的时间序列聚类方法,是将时间序列作为静态数据处理,没有考虑序列随时间演变的特征,因此进行时间序列的动态聚类研究具有重要意义。本文针对模糊聚类有效性及时间序列的动态聚类进行了部分研究,具体研究内容如下。1.基于模糊c均值算法,通过隶属度矩阵计算类内紧密性和类间重叠性,本文提出了一种新的模糊聚类有效性指标。对于类间有重叠的数据集,利用该指标可以有效地发现优化的聚类数。一般来说,理想的聚类结果是类内紧密性大,类间重叠性小。该指标可以克服FCM算法中,类数需要预先设定的缺点。通过多组数据集测试表明,该指标能够准确地对模糊聚类结果的有效性做出判断,并且对于模糊子m取三个不同的常用值,均能发现最优聚类数。2.为了弥补时间序列静态聚类算法的缺点,本文提出了一种时间序列的动态聚类方法。该方法首先使用关键点集合表示时间序列,进行降维计算;再根据基于兰氏距离的FCM算法,对时间序列进行聚类,从而得到具有明显时间动态性的时间序列;最后利用提出的动态聚类算法对跳转序列进行演化聚类。该方法揭示了时间序列类别随时间演化的本质,反映了对时间序列的聚类区别于静态数据聚类的特点。基于兰氏距离的FCM算法对奇异值不敏感。通过多组数据集测试表明,该方法具有良好的可行性和有效性。