论文部分内容阅读
一、引言
目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,云计算的应用价值得到了包括IBM、Google在内的众多公司的重视,其未来将像工业革命一样影响计算机应用的发展。目前,云计算处于研究和应用的初级阶段,云计算走出实验室迈向商业化指日可待,云计算的特点使存储及数据商业化,海量数据存储和挖掘是一个具有理论和应用价值的研究领域,本文阐述了在云计算开源框架下应用挖掘聚类分析算法。
二、云计算和数据挖掘
云计算一般是指一种虚拟的网络资源,它是一种实时的动态的和容易扩展的网络资源,本身是根据因特网的一种使用、增加和交付的模式。在狭义上,云计算主要是指通过互联网,根据用户需要、并且是容易扩展的办法得到网络资源,是信息技术设施的提交和利用模式;在广义上,主要指一般的服务的提交和利用模式,通过因特网获得需要的服务。这种服务范围广泛,包括信息技术、应用软件、互联网络等等相关的方面,当然也可以是其他的一些服务。这就表示计算能力可以通过网络商品化,在互联网上面流通。
云计算,它的计算资源--包括计算能力、交互能力、存储能力等,是一种实时的、可变的、和虚拟化的资源,它是一种网络化的、人人都能参与的计算形式,为互联网上的用户提供服务。云计算为下面几方面提供了可能性:第一,云计算具有实时性和可变的计算能力可以为海量高效的数据挖掘提供了可能;第二,云计算是所有互联网公司或个人参与的,能够发挥集体智慧,从而孕育新的数据挖掘环境;第三,云计算还是得我们普通人数据挖掘成为可能。还有,云计算与数据挖掘是相辅相成的,相互发展。
数据挖掘,也就是在大量的数据中寻找到需要的事件,然后运用科学技术分析出其中的需要找到的事件,并提取其中的一些数据,找到数据隐藏的意思,并且,我们可以根据环境背景的不同,创建不同的数据挖掘形式,从而得到所需要的有用的信息,然后可以将这些有用的信息提供给相关企业或者个人,为企业或个人的决策提供依据。
因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
三、聚类分析方法和用处
这些年,在计算机技术的迅猛发展带动下,数据挖掘技术和聚类分析技术发展迅速,吸引了很多的专家投入到这个领域,成为了相当活跃的研究领域。到今天为止,很多专家研究了很多效率很高的聚类分析方法,而且新的聚类分析法也在不断涌现。
聚类分析通过把把相同性质的东西聚集到一起,然后对事物进行分类统计的多元统计办法,是一种中不需要监督学习的方式,在没有前提知识的状况下,根据大量的样品,根据他们自身性质合理的进行分类,没有任何的参考模式和遵循方式。
聚类分析是实验如何将指标或者样品通过不同的性质特点,采用综合起来分类别的多元统计办法。聚类就是通过运用数据的相似层度(预先定义的),将目标数据在没有训练的情况下分为若干组。
聚类分析法在数据挖掘中很多时候都会用到,这项技术本身即是一种数据挖掘方法,同时可以为作为数据挖掘的前期处理。
四、基于云计算平台的聚类分析算法
要在云计算平台上实现聚类分析算法,首先,要考虑算法的并行性,只有那种本身具有并行化特征的聚类分析算法才能正确地迁移到云计算平台上。
现在的聚类方法分为五类:根据类别的聚类分析法,根据层次的聚类分析法,基于密度的聚类分析方法,基于网络的聚类分析方法,基于模型的的聚类分析方法。下面以基于密度DBSCAN(densityial-based spatial clustering of applications with noise )算法为例阐述聚类分析法在云计算中的应用。根据密度的办法是得到密度够高的区域划分为几个部分,于是可以得到任何形状的聚类结果。BDSCAN算法拥有很多的优点,比如,可以有效屏蔽多余数据的干扰,可以找到任何形状的簇,是具有代表性的聚类分析算法。
DBSCAN算法描述:
DBSCAN(D,EPs,MinPts)
初始化//输入数据:D:数据对象集合,EPs:邻域,MinPts:密度闭值
Step1:读取D中任何一个没有分类的对象o;
Step2:查找出与o的距离小于等于EPs的所有的NePs(o);
Step3:if │Neps(o)│≤MinPts(即o为非核心对象),则将o标记为噪声,并执行Step1;
Step4:else(即o为核心对象),给NePs(o)中的所有对象打上一个新的类标签newid,并且将这些对象压缩到堆栈的SeedS中;
Step5:置Currentobjeet=Seeds.top;然后检索属于Neps(C二entobject)的所有对象;如果│NePs(CurreniObjeet) │>MinPts,则剔除己经打上标记的对象,将剩下的没有分类的标上类标签newid,然后压入堆栈;
Step6:Seeds.pop,判断Seeds是不是空的,是,则执行step1),否则执行Step5。
通过上面的算法,我们可以分析出来,DBSCAN算法可以找到任何形状的聚类,而且对数据的次序不敏感,并且还有处理噪音数据的能力。但是,改算法对于客户定义的一些参数是敏感的,而选择恰当的参数需要相关的经验,而且,该算法的时间复杂性是O(n?),对于大型的数据库来说,这种较高的复杂度并不容易实现。
五、结语
数据挖掘以及聚类分析应用领域十分广泛和巨大,相对国外而言我们国家在这方面的研究开发创造相对落后了许多,在很多实际应用的领域在技术上研究上不免受制于人,因此,加强国内数据挖掘方面的算法和应用的研究就显得十分重要,这也成为推动我们国家数据挖掘领域不断进步和发展的不竭动力。
目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,云计算的应用价值得到了包括IBM、Google在内的众多公司的重视,其未来将像工业革命一样影响计算机应用的发展。目前,云计算处于研究和应用的初级阶段,云计算走出实验室迈向商业化指日可待,云计算的特点使存储及数据商业化,海量数据存储和挖掘是一个具有理论和应用价值的研究领域,本文阐述了在云计算开源框架下应用挖掘聚类分析算法。
二、云计算和数据挖掘
云计算一般是指一种虚拟的网络资源,它是一种实时的动态的和容易扩展的网络资源,本身是根据因特网的一种使用、增加和交付的模式。在狭义上,云计算主要是指通过互联网,根据用户需要、并且是容易扩展的办法得到网络资源,是信息技术设施的提交和利用模式;在广义上,主要指一般的服务的提交和利用模式,通过因特网获得需要的服务。这种服务范围广泛,包括信息技术、应用软件、互联网络等等相关的方面,当然也可以是其他的一些服务。这就表示计算能力可以通过网络商品化,在互联网上面流通。
云计算,它的计算资源--包括计算能力、交互能力、存储能力等,是一种实时的、可变的、和虚拟化的资源,它是一种网络化的、人人都能参与的计算形式,为互联网上的用户提供服务。云计算为下面几方面提供了可能性:第一,云计算具有实时性和可变的计算能力可以为海量高效的数据挖掘提供了可能;第二,云计算是所有互联网公司或个人参与的,能够发挥集体智慧,从而孕育新的数据挖掘环境;第三,云计算还是得我们普通人数据挖掘成为可能。还有,云计算与数据挖掘是相辅相成的,相互发展。
数据挖掘,也就是在大量的数据中寻找到需要的事件,然后运用科学技术分析出其中的需要找到的事件,并提取其中的一些数据,找到数据隐藏的意思,并且,我们可以根据环境背景的不同,创建不同的数据挖掘形式,从而得到所需要的有用的信息,然后可以将这些有用的信息提供给相关企业或者个人,为企业或个人的决策提供依据。
因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
三、聚类分析方法和用处
这些年,在计算机技术的迅猛发展带动下,数据挖掘技术和聚类分析技术发展迅速,吸引了很多的专家投入到这个领域,成为了相当活跃的研究领域。到今天为止,很多专家研究了很多效率很高的聚类分析方法,而且新的聚类分析法也在不断涌现。
聚类分析通过把把相同性质的东西聚集到一起,然后对事物进行分类统计的多元统计办法,是一种中不需要监督学习的方式,在没有前提知识的状况下,根据大量的样品,根据他们自身性质合理的进行分类,没有任何的参考模式和遵循方式。
聚类分析是实验如何将指标或者样品通过不同的性质特点,采用综合起来分类别的多元统计办法。聚类就是通过运用数据的相似层度(预先定义的),将目标数据在没有训练的情况下分为若干组。
聚类分析法在数据挖掘中很多时候都会用到,这项技术本身即是一种数据挖掘方法,同时可以为作为数据挖掘的前期处理。
四、基于云计算平台的聚类分析算法
要在云计算平台上实现聚类分析算法,首先,要考虑算法的并行性,只有那种本身具有并行化特征的聚类分析算法才能正确地迁移到云计算平台上。
现在的聚类方法分为五类:根据类别的聚类分析法,根据层次的聚类分析法,基于密度的聚类分析方法,基于网络的聚类分析方法,基于模型的的聚类分析方法。下面以基于密度DBSCAN(densityial-based spatial clustering of applications with noise )算法为例阐述聚类分析法在云计算中的应用。根据密度的办法是得到密度够高的区域划分为几个部分,于是可以得到任何形状的聚类结果。BDSCAN算法拥有很多的优点,比如,可以有效屏蔽多余数据的干扰,可以找到任何形状的簇,是具有代表性的聚类分析算法。
DBSCAN算法描述:
DBSCAN(D,EPs,MinPts)
初始化//输入数据:D:数据对象集合,EPs:邻域,MinPts:密度闭值
Step1:读取D中任何一个没有分类的对象o;
Step2:查找出与o的距离小于等于EPs的所有的NePs(o);
Step3:if │Neps(o)│≤MinPts(即o为非核心对象),则将o标记为噪声,并执行Step1;
Step4:else(即o为核心对象),给NePs(o)中的所有对象打上一个新的类标签newid,并且将这些对象压缩到堆栈的SeedS中;
Step5:置Currentobjeet=Seeds.top;然后检索属于Neps(C二entobject)的所有对象;如果│NePs(CurreniObjeet) │>MinPts,则剔除己经打上标记的对象,将剩下的没有分类的标上类标签newid,然后压入堆栈;
Step6:Seeds.pop,判断Seeds是不是空的,是,则执行step1),否则执行Step5。
通过上面的算法,我们可以分析出来,DBSCAN算法可以找到任何形状的聚类,而且对数据的次序不敏感,并且还有处理噪音数据的能力。但是,改算法对于客户定义的一些参数是敏感的,而选择恰当的参数需要相关的经验,而且,该算法的时间复杂性是O(n?),对于大型的数据库来说,这种较高的复杂度并不容易实现。
五、结语
数据挖掘以及聚类分析应用领域十分广泛和巨大,相对国外而言我们国家在这方面的研究开发创造相对落后了许多,在很多实际应用的领域在技术上研究上不免受制于人,因此,加强国内数据挖掘方面的算法和应用的研究就显得十分重要,这也成为推动我们国家数据挖掘领域不断进步和发展的不竭动力。