数据挖掘聚类分析算法在云计算中的应用研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:zhugege521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、引言
  目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,云计算的应用价值得到了包括IBM、Google在内的众多公司的重视,其未来将像工业革命一样影响计算机应用的发展。目前,云计算处于研究和应用的初级阶段,云计算走出实验室迈向商业化指日可待,云计算的特点使存储及数据商业化,海量数据存储和挖掘是一个具有理论和应用价值的研究领域,本文阐述了在云计算开源框架下应用挖掘聚类分析算法。
  二、云计算和数据挖掘
  云计算一般是指一种虚拟的网络资源,它是一种实时的动态的和容易扩展的网络资源,本身是根据因特网的一种使用、增加和交付的模式。在狭义上,云计算主要是指通过互联网,根据用户需要、并且是容易扩展的办法得到网络资源,是信息技术设施的提交和利用模式;在广义上,主要指一般的服务的提交和利用模式,通过因特网获得需要的服务。这种服务范围广泛,包括信息技术、应用软件、互联网络等等相关的方面,当然也可以是其他的一些服务。这就表示计算能力可以通过网络商品化,在互联网上面流通。
  云计算,它的计算资源--包括计算能力、交互能力、存储能力等,是一种实时的、可变的、和虚拟化的资源,它是一种网络化的、人人都能参与的计算形式,为互联网上的用户提供服务。云计算为下面几方面提供了可能性:第一,云计算具有实时性和可变的计算能力可以为海量高效的数据挖掘提供了可能;第二,云计算是所有互联网公司或个人参与的,能够发挥集体智慧,从而孕育新的数据挖掘环境;第三,云计算还是得我们普通人数据挖掘成为可能。还有,云计算与数据挖掘是相辅相成的,相互发展。
  数据挖掘,也就是在大量的数据中寻找到需要的事件,然后运用科学技术分析出其中的需要找到的事件,并提取其中的一些数据,找到数据隐藏的意思,并且,我们可以根据环境背景的不同,创建不同的数据挖掘形式,从而得到所需要的有用的信息,然后可以将这些有用的信息提供给相关企业或者个人,为企业或个人的决策提供依据。
  因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
  三、聚类分析方法和用处
  这些年,在计算机技术的迅猛发展带动下,数据挖掘技术和聚类分析技术发展迅速,吸引了很多的专家投入到这个领域,成为了相当活跃的研究领域。到今天为止,很多专家研究了很多效率很高的聚类分析方法,而且新的聚类分析法也在不断涌现。
  聚类分析通过把把相同性质的东西聚集到一起,然后对事物进行分类统计的多元统计办法,是一种中不需要监督学习的方式,在没有前提知识的状况下,根据大量的样品,根据他们自身性质合理的进行分类,没有任何的参考模式和遵循方式。
  聚类分析是实验如何将指标或者样品通过不同的性质特点,采用综合起来分类别的多元统计办法。聚类就是通过运用数据的相似层度(预先定义的),将目标数据在没有训练的情况下分为若干组。
  聚类分析法在数据挖掘中很多时候都会用到,这项技术本身即是一种数据挖掘方法,同时可以为作为数据挖掘的前期处理。
  四、基于云计算平台的聚类分析算法
  要在云计算平台上实现聚类分析算法,首先,要考虑算法的并行性,只有那种本身具有并行化特征的聚类分析算法才能正确地迁移到云计算平台上。
  现在的聚类方法分为五类:根据类别的聚类分析法,根据层次的聚类分析法,基于密度的聚类分析方法,基于网络的聚类分析方法,基于模型的的聚类分析方法。下面以基于密度DBSCAN(densityial-based spatial clustering of applications with noise )算法为例阐述聚类分析法在云计算中的应用。根据密度的办法是得到密度够高的区域划分为几个部分,于是可以得到任何形状的聚类结果。BDSCAN算法拥有很多的优点,比如,可以有效屏蔽多余数据的干扰,可以找到任何形状的簇,是具有代表性的聚类分析算法。
  DBSCAN算法描述:
  DBSCAN(D,EPs,MinPts)
  初始化//输入数据:D:数据对象集合,EPs:邻域,MinPts:密度闭值
  Step1:读取D中任何一个没有分类的对象o;
  Step2:查找出与o的距离小于等于EPs的所有的NePs(o);
  Step3:if │Neps(o)│≤MinPts(即o为非核心对象),则将o标记为噪声,并执行Step1;
  Step4:else(即o为核心对象),给NePs(o)中的所有对象打上一个新的类标签newid,并且将这些对象压缩到堆栈的SeedS中;
  Step5:置Currentobjeet=Seeds.top;然后检索属于Neps(C二entobject)的所有对象;如果│NePs(CurreniObjeet) │>MinPts,则剔除己经打上标记的对象,将剩下的没有分类的标上类标签newid,然后压入堆栈;
  Step6:Seeds.pop,判断Seeds是不是空的,是,则执行step1),否则执行Step5。
  通过上面的算法,我们可以分析出来,DBSCAN算法可以找到任何形状的聚类,而且对数据的次序不敏感,并且还有处理噪音数据的能力。但是,改算法对于客户定义的一些参数是敏感的,而选择恰当的参数需要相关的经验,而且,该算法的时间复杂性是O(n?),对于大型的数据库来说,这种较高的复杂度并不容易实现。
  五、结语
  数据挖掘以及聚类分析应用领域十分广泛和巨大,相对国外而言我们国家在这方面的研究开发创造相对落后了许多,在很多实际应用的领域在技术上研究上不免受制于人,因此,加强国内数据挖掘方面的算法和应用的研究就显得十分重要,这也成为推动我们国家数据挖掘领域不断进步和发展的不竭动力。
其他文献
【摘 要】21世纪迎来了信息化时代,移动通信技术也在此期间得到了突破性的发展,并大大拓宽了移动通信网络的覆盖面。尽管如此,移动通信技术仍有待深入发展,其中信息共享结构的构建是移动通信行业最关注的问题之一,以此满足人们日益增长的移动通信需求。本文就移动通信中信息共享结构展开讨论。  【关键词】移动通信 信息共享结构 互补结构  一、引言  所谓信息共享,它是指信息产品和信息量在不同部门及不同层次间的
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
基于大空间运动下中厚截锥壳的非线性动力方程,建立了单轴转动截锥中厚壳的非线性振动方程.利用增量型谐波平衡法(IHBM法)对单轴转动截锥中厚壳的横向主谐共振、超谐共振及壳
您知道吗,其实借助当下功能强大的微控制器和一台3D打印机,目前市场上很多电子产品您都能自己在家里复制出来,而且成本可能都不到它们市场价格的一小部分。
一般认为传统的疲劳方程为一经验公式,无法解释其力学含义.采用损伤力学方法研究梁的弯曲疲劳问题,分别以初始无损伤时的应力幅值和损伤材料的有效应力(或有效应变)幅值作为
对具有4个分担值的一类亚纯函数的特征函数及分担值点的密指量作出了3个估计.
锁头几乎是我们接触最多的日常用品了,家中大门、更衣室的柜门以及各种各样私人、需要保证财产安全的地方我们都要用到它。不过长久以来,锁头除了外观上的变化之外,打开方式几乎
基于矩阵摄动理论,提出一种能兼顾到投入产出基期直接消耗系数变动对整体影响程度因素的RAS推广方法数学模型,并给出了应用实例.
彭礼孝:2011年,UED杂志承办了"天津大学第18届当代中国建筑创作论坛暨首届UED中国建筑节",邀请了3位院士、6位大师、日本建筑师隈研吾,以及中国的70余位知名建筑师。请问您怎么
目的 探讨晚期糖基化终末产物(AGEs)参与肾移植术后动脉粥样硬化形成的机制.方法 原代培养SD大鼠主动脉平滑肌细胞;用AGEs或牛血清白蛋白200 mg/L作用该细胞不同时程(12h~12d),采用Western blot法和间接免疫荧光法检测α-平滑肌肌动蛋白(α-SMA)、特异性核转录因子(RUNX2)和骨桥蛋白(OPN)的表达.结果 第2~5代VSMCs中α-SMA高度表达;在AGEs作用