论文部分内容阅读
摘 要:时空聚类分析是时空数据挖掘领域近年来研究的热点问题,对于揭示时空要素的发展变化趋势、规律以及本质特征具有重要意义。目前,时空聚类分析的研究仍在初步,缺乏具有普适性的时空聚类分析方法。为此,本文针对国内水性漆行业的行业数据提出了一种时空一体化的时空聚类方法。该方法很好地顾及了时空数据的时空耦合、时空相关与时空异质特征,避免了过多人为主观因素的干扰,时空聚类结果具有较好的可靠性。
关键字:数据挖掘;Web数据挖掘;聚类分析;聚类算法
一、引言
随着计算机技术、数据库技术、网络技术的飞速发展,各种信息知识可以在网络上获得。网络在给人们带来便利的同时也带来了不少弊端,造成了知识的"污染",面临信息的海洋,呼唤一种从数据海洋中去粗取精、去伪存真的技术来准确、快速地获取有用的、隐含的信息,在这种形势下,Web数据挖掘技术应运而生。
近年来,时空数据挖掘已受到国际学术界和工业界的广泛关注,时空信息的认知和数据模型的研究进展是时空数据挖掘研究的基础,时空数据挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为基础,挖掘时空知识或规则。
时空聚类分析作为时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个最前沿、最具挑战的研究课题。时空聚类分析旨在从时空数据库中发现具有相似特征的时空实体结合(即时空簇),亦是传统的聚类分析从空间域到时空域的进一步扩展。时空聚类在全球气候变化、公共卫生安全、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象发展变化的趋势、规律与本质特征。
本文把时空聚类分析应用在Web数据挖掘中,具有很强的现实意义与理论价值。一方面,通过聚类挖掘可以找空间实体即水性漆生产商的地理分布规律,帮助决策者更快地找到所需的信息;另一方面,对行业数据重新组织,让相邻、相近的数据尽量编排在一块,可以提高访问速度,对于预测整个水性漆行业的发展动态有积极的意义。
二、国内外研究现状及分析
国内外学者已经针对时空聚类分析开展了初步的研究,现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。最近, Kisilevich[1] 等对时空聚类分析方法进行了较为系统的阐述。时空聚类分析研究虽然已经取得一定成果,但依然面临两方面难点: (1) 时空数据具有时空耦合的特点。 时空数据是空间维与时间维的有机组合, 空间数据与时序数据的一些性质并不能直接推广到时空域。 例如, 空间数据不存在过去、现在、将来的区别, 而时空数据却具有这种特性;(2) 时空数据具有时空相关性与时空异质性两个重要性质。 时空数据的分布在时间和空间上具有关联性, 也会随着时间和空间的变化而产生差异。 此外, 当前的时空聚类分析研究仍没有形成一套具有普适性的理论方法框架。
现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。 最近, Kisilevich 等对时空聚类分析方法进行了较为系统的阐述,其主要思想是采用一个预设的时空扫描窗口, 即由空间距离定义半径、时间间隔定义高度的圆柱体, 以每个时空实体为中心进行扫描, 借助统计检验的方法确定疾病爆发的聚集区域。 该方法一方面需要预先假定数据的概率分布模型, 且结果受扫描窗口的影响较大, 另一方面不能详细描述时空簇的位置和形状信息。最近, Pei 等发展了一种基于窗口邻近的时空聚类方法, 其主要思想是定义一个圆柱形的时空邻近域, 在每个时空邻域内区分聚集部分和噪声部分, 并采用 DBSCAN 密度相连的策略将聚集部分连接成时空簇。 该方法只能针对仅存在两种 Poisson 分布(簇与噪声) 的时空数据进行时空聚类操作, 且无法顾及时空实体的非空间属性。 基于时空距离的方法可以区分为两类, 一类是从时间、空间两个角度分别定义时空邻近实体; 另一类是综合定义时空耦合距离, 这类方法主要用于地震序列的时空聚集性发现, 在实际中时空属性的融合比较困难。
综上分析, 可以发现目前尚缺乏一种能够同时顾及时空实体的非空间属性和时空实体时空耦合特性的时空聚类方法。 为此, 下面将发展一种时空聚类分析的新策略。
三、时空聚类分析在Web数据挖掘中的研究与应用
1.研究目标:本课题通过在研究空间数据挖掘、XML 数据挖掘、时空数据挖掘基础上,对时空聚类的关键技术进行分析,设计出适合Web数据挖掘的时空聚类挖掘的算法并构建原型系统,实现对行业网站数据时空聚类挖掘。
2.研究内容:(1) 数据的聚集趋势估计,即判断数据能否进行聚类分析; (2) 聚类方法设计; (3) 聚类结果有效性评价。在地理空间中,时间和空间上的相关性是时空实体的基本特征,也是进行时空聚类分析的前提。若实体间没有相关性,则不会产生明显的聚集现象。时空聚类旨在将时空相关性较强的时空实体聚在同一簇,时空聚类过程中必须充分考虑实体间的相关性。因此,时空聚类分析可以归纳为 3 个步骤。
首先,需要对时空数据进行探索性分析,掌握时空数据的特性。其主要包括: (1) 时空相关性分析,判断时空数据是否可以进行时空聚类分析;(2) 时空平稳性分析,分析时空数据的时空异质特征。
其次,根据时空数据的具体特点发展专门性的时空聚类方法。
最后,需要对时空聚类分析的结果进行分析和评价。
拟解决的关键问题:从时空数据的基本特征出发,建立一套时空聚类分析的理论方法框架,并提出一种时空一体化的时空聚类方法,应用于中国水性漆网的Web数据库,确认其有效性。
3.项目研究方案:
第一步:时空聚类分析:包括时空数据探索性分析、时空邻近域构建和时空聚类方法。
第二步:中国水性漆网站数据时空聚类分析,包括数据描述与预处理:选取中国水性漆网站数据库进行实例分析;时空数据探索性分析:首先对数据的空间相关性进行检验,这里借助变差函数来分析空间相关性。进而,采用普通 Kriging方法进行插值;一种基于 LINQ 查询与 K-Means 结合的时空聚类算法:在分析、比较经典聚类算法的基础上,结合水性漆网站时空数据的特点,提出了一种将扩展的 XML 文档查询语言LINQ与经典的K-Means聚类算法相结合的算法,通过实验验证该算法的有效性及优越性。
时空聚类原型体系结构及设计实现:为验证算法的实用性,基于 ArcEngine采用 C#语言开发了水性漆网站数据时空聚类原型系统。
四、结束语
本文提出了时空聚类分析的理论方法框架, 该框架易于推广用于其他类型的时空数据, 具有很强的普适性;很好地顾及了时空数据的时空耦合、时空相关与时空异质特征, 避免了过多人为主观因素的干扰, 时空聚类结果具有较好的可靠性。
参考文献:
[1] 陆玉昌。数据挖掘与知识发现[M]。成都:西南交通大学出版社,2005
[2] 金艳云。Web数据挖掘综述[J]。现代计算机,2012(11)
[3] 庄怡雯。基于聚类算法的Web日志挖掘应用研究[D]。东华大学,2010
[4] 刘小利,刘小辉。数据聚类算法在Web数据挖掘中的应用[J]。科技创新导报,2012(31)
[5] Kisilevich S, Mansmann F, Nanni M, et al。 Spatio-Temporal Clustering, Data Mining and Knowledge Discovery Handbook。 2nd ed。 New York: Springer Press, 2010。 855-874
[6] 邓敏; 刘启亮; 王佳; 石岩 时空聚类分析的普适性方法 中国科学:信息科学,2012
关键字:数据挖掘;Web数据挖掘;聚类分析;聚类算法
一、引言
随着计算机技术、数据库技术、网络技术的飞速发展,各种信息知识可以在网络上获得。网络在给人们带来便利的同时也带来了不少弊端,造成了知识的"污染",面临信息的海洋,呼唤一种从数据海洋中去粗取精、去伪存真的技术来准确、快速地获取有用的、隐含的信息,在这种形势下,Web数据挖掘技术应运而生。
近年来,时空数据挖掘已受到国际学术界和工业界的广泛关注,时空信息的认知和数据模型的研究进展是时空数据挖掘研究的基础,时空数据挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为基础,挖掘时空知识或规则。
时空聚类分析作为时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个最前沿、最具挑战的研究课题。时空聚类分析旨在从时空数据库中发现具有相似特征的时空实体结合(即时空簇),亦是传统的聚类分析从空间域到时空域的进一步扩展。时空聚类在全球气候变化、公共卫生安全、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象发展变化的趋势、规律与本质特征。
本文把时空聚类分析应用在Web数据挖掘中,具有很强的现实意义与理论价值。一方面,通过聚类挖掘可以找空间实体即水性漆生产商的地理分布规律,帮助决策者更快地找到所需的信息;另一方面,对行业数据重新组织,让相邻、相近的数据尽量编排在一块,可以提高访问速度,对于预测整个水性漆行业的发展动态有积极的意义。
二、国内外研究现状及分析
国内外学者已经针对时空聚类分析开展了初步的研究,现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。最近, Kisilevich[1] 等对时空聚类分析方法进行了较为系统的阐述。时空聚类分析研究虽然已经取得一定成果,但依然面临两方面难点: (1) 时空数据具有时空耦合的特点。 时空数据是空间维与时间维的有机组合, 空间数据与时序数据的一些性质并不能直接推广到时空域。 例如, 空间数据不存在过去、现在、将来的区别, 而时空数据却具有这种特性;(2) 时空数据具有时空相关性与时空异质性两个重要性质。 时空数据的分布在时间和空间上具有关联性, 也会随着时间和空间的变化而产生差异。 此外, 当前的时空聚类分析研究仍没有形成一套具有普适性的理论方法框架。
现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。 最近, Kisilevich 等对时空聚类分析方法进行了较为系统的阐述,其主要思想是采用一个预设的时空扫描窗口, 即由空间距离定义半径、时间间隔定义高度的圆柱体, 以每个时空实体为中心进行扫描, 借助统计检验的方法确定疾病爆发的聚集区域。 该方法一方面需要预先假定数据的概率分布模型, 且结果受扫描窗口的影响较大, 另一方面不能详细描述时空簇的位置和形状信息。最近, Pei 等发展了一种基于窗口邻近的时空聚类方法, 其主要思想是定义一个圆柱形的时空邻近域, 在每个时空邻域内区分聚集部分和噪声部分, 并采用 DBSCAN 密度相连的策略将聚集部分连接成时空簇。 该方法只能针对仅存在两种 Poisson 分布(簇与噪声) 的时空数据进行时空聚类操作, 且无法顾及时空实体的非空间属性。 基于时空距离的方法可以区分为两类, 一类是从时间、空间两个角度分别定义时空邻近实体; 另一类是综合定义时空耦合距离, 这类方法主要用于地震序列的时空聚集性发现, 在实际中时空属性的融合比较困难。
综上分析, 可以发现目前尚缺乏一种能够同时顾及时空实体的非空间属性和时空实体时空耦合特性的时空聚类方法。 为此, 下面将发展一种时空聚类分析的新策略。
三、时空聚类分析在Web数据挖掘中的研究与应用
1.研究目标:本课题通过在研究空间数据挖掘、XML 数据挖掘、时空数据挖掘基础上,对时空聚类的关键技术进行分析,设计出适合Web数据挖掘的时空聚类挖掘的算法并构建原型系统,实现对行业网站数据时空聚类挖掘。
2.研究内容:(1) 数据的聚集趋势估计,即判断数据能否进行聚类分析; (2) 聚类方法设计; (3) 聚类结果有效性评价。在地理空间中,时间和空间上的相关性是时空实体的基本特征,也是进行时空聚类分析的前提。若实体间没有相关性,则不会产生明显的聚集现象。时空聚类旨在将时空相关性较强的时空实体聚在同一簇,时空聚类过程中必须充分考虑实体间的相关性。因此,时空聚类分析可以归纳为 3 个步骤。
首先,需要对时空数据进行探索性分析,掌握时空数据的特性。其主要包括: (1) 时空相关性分析,判断时空数据是否可以进行时空聚类分析;(2) 时空平稳性分析,分析时空数据的时空异质特征。
其次,根据时空数据的具体特点发展专门性的时空聚类方法。
最后,需要对时空聚类分析的结果进行分析和评价。
拟解决的关键问题:从时空数据的基本特征出发,建立一套时空聚类分析的理论方法框架,并提出一种时空一体化的时空聚类方法,应用于中国水性漆网的Web数据库,确认其有效性。
3.项目研究方案:
第一步:时空聚类分析:包括时空数据探索性分析、时空邻近域构建和时空聚类方法。
第二步:中国水性漆网站数据时空聚类分析,包括数据描述与预处理:选取中国水性漆网站数据库进行实例分析;时空数据探索性分析:首先对数据的空间相关性进行检验,这里借助变差函数来分析空间相关性。进而,采用普通 Kriging方法进行插值;一种基于 LINQ 查询与 K-Means 结合的时空聚类算法:在分析、比较经典聚类算法的基础上,结合水性漆网站时空数据的特点,提出了一种将扩展的 XML 文档查询语言LINQ与经典的K-Means聚类算法相结合的算法,通过实验验证该算法的有效性及优越性。
时空聚类原型体系结构及设计实现:为验证算法的实用性,基于 ArcEngine采用 C#语言开发了水性漆网站数据时空聚类原型系统。
四、结束语
本文提出了时空聚类分析的理论方法框架, 该框架易于推广用于其他类型的时空数据, 具有很强的普适性;很好地顾及了时空数据的时空耦合、时空相关与时空异质特征, 避免了过多人为主观因素的干扰, 时空聚类结果具有较好的可靠性。
参考文献:
[1] 陆玉昌。数据挖掘与知识发现[M]。成都:西南交通大学出版社,2005
[2] 金艳云。Web数据挖掘综述[J]。现代计算机,2012(11)
[3] 庄怡雯。基于聚类算法的Web日志挖掘应用研究[D]。东华大学,2010
[4] 刘小利,刘小辉。数据聚类算法在Web数据挖掘中的应用[J]。科技创新导报,2012(31)
[5] Kisilevich S, Mansmann F, Nanni M, et al。 Spatio-Temporal Clustering, Data Mining and Knowledge Discovery Handbook。 2nd ed。 New York: Springer Press, 2010。 855-874
[6] 邓敏; 刘启亮; 王佳; 石岩 时空聚类分析的普适性方法 中国科学:信息科学,2012