论文部分内容阅读
数据挖掘(Data Mining,DM)是从包含相对复杂结构的海量动态数据库中提取潜在的、未知的、和有用知识的过程[1],因此也被称作数据库中的知识发现(KnowledgeDiscovery in Database,KDD)。聚类[2]作为数据挖掘领域中的重要研究内容得到了长足的发展,聚类主要实现以下目的:将数据集中的对象分成若干类簇,以达到类簇内对象尽可能相似,而类簇间对象尽可能相异。目前有关聚类挖掘的研究已基本成熟,而当前社会是一个“跨界”的社会,将聚类挖掘技术应用于其它学科越来越受到学者们的重视,而多尺度科学[3,4]作为一门新兴学科,其相关研究也变得炙手可热,将聚类挖掘同多尺度科学结合起来实现多尺度聚类挖掘变得越来越重要。目前,多尺度聚类挖掘有了一定的研究进展,如学者孙庆先将多尺度的数据挖掘归纳为三种途径[4]:在挖掘前将单一尺度的数据转换成多个尺度的数据,然后对多个尺度的数据分别进行挖掘,即实现数据的多尺度转换;在挖掘算法中引入调节尺度用的操作部件,以控制挖掘出知识的尺度;将挖掘出的单一尺度的知识转换成多个尺度的知识,即完成知识的多尺度转换。通过前两种途径可以很容易地实现多尺度挖掘,但遇到的一个严重的问题就是需要在每一个尺度上应用挖掘算法。途径3还很少有人研究,本文对本途径进行探索,提出了一种新的算法,以解决前两种途径的多尺度聚类挖掘中所遇到的问题。本文的主要工作内容如下:提出了一种基于向量的多尺度表示方法。尺度存在于各种类型的数据库中,而不同类型的数据,其尺度的表达方式也不同,为尺度大小的比较、尺度转换工作带来了不便。本文基于向量的思想将不同数据类型的尺度表示成统一的向量形式,以方便尺度间的比较、转换操作,并为本文算法的提出奠定了基础。提出了一种基于加权向量提升的多尺度聚类挖掘算法,来完成在不同尺度上聚类的目的。算法的基本思想即是多尺度挖掘的第三种途径:首先,该算法选定一个基准尺度,并在该基准尺度上应用聚类挖掘算法以获取该尺度上的聚类结果;其次,对于用户感兴趣的其它尺度,通过应用尺度转换机制将基准尺度上的聚类结果反演出目标尺度的聚类结果,进而完成多尺度的聚类挖掘。将本文提出的算法应用于H省流动人口分析当中,进一步验证了本文算法的可行性和有效性。实验表明,该算法是可行和有效的,其聚类结果可以为相关领域的决策者提供科学的指导依据。