论文部分内容阅读
聚类分析(Clustering Analysis)是数据挖掘研究中一个十分重要的研究方向,数据对象的聚类过程是一种无监督自学习的数据分类过程,聚类分析算法研究是一个极具挑战性的研究课题。聚类的对象是物理的或抽象的数据,这些数据又分为两类:静态的(static)和移动的(moving)。静态数据的聚类分析(clustering analysis for static data)起步对象较早,有成熟的数据模型和聚类分析算法;移动数据的聚类分析(clustering analysis for moving data)是21世纪兴起的一个研究课题,在移动数据的聚类分析中,数据对象是移动的(随时间而变化的),聚类分析的目的是:根据数据对象的历史数据,得到各个时间段的不同聚类,然后根据这些聚类来预测未来时刻的数据的分类,从而达到对事件(相交或分离事件)预测的目的。相对于静态数据而言,移动数据更符合实际,在实际应用领域中,几乎所有的数据对象都是运动变化的,因此移动数据聚类分析有更广泛的应用价值,比如,在天文学、军事、交通、移动通信等领域中具有很重要的应用价值。移动数据的聚类分析是一个挑战性很大的研究课题,主要表现在:(1)数据量是海量的,同时还需要不同历史时期的数据,如此大的数据量是聚类分析研究的最大难点;(2)移动数据的结构描述即数据模型是一个新的研究领域,没有形成成熟的理论;(3)移动聚类分析的目的是根据历史的聚类预测未来的聚类,在聚类分析中得到一个精确的聚类结果是很难的,依据聚类得到聚类,其研究难度是相当大的。尽管如此,由于移动数据聚类分析是一个新兴的、应用价值大的研究领域,对它的研究无论是在理论上还是应用上都具有不可估量的前景。本文重点研究移动数据聚类分析。首先分析、总结和研究现有的静态数据的聚类分析方法,然后研究移动环境中的数据模型和聚类算法,并在此基础上提出了一个新的移动数据的预估聚类算法。本文研究取得的成果有:1.从多个角度分析了现有的静态数据的聚类算法,提出了一个新的组合聚类算法从聚类准则、簇的表示、算法结构等不同角度来分析当前一些主要的静态数的聚类算法。分析了几个主要的组合聚类算法。在此基础上,提出了一个新的组合聚类算法——基于网格的最小生成树聚类算法,此算法通过网格化数据,实现了最小生成树聚类算法的优化,可以有效地发现任意形状的簇。2.系统地总结了当前主要的对移动数据分析的聚类算法由于以往的聚类分析算法绝大部分是基于静态数据的,而对移动数据的聚类