云计算的数据挖掘应用分析

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:handong007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着科技的发展,传统数据处理系统已经远远不能满足人们的需求,云计算以其强大的通用性、大规模的动态扩展、服务的可靠性、低廉的成本、超强的数据存储和处理能力为用户提供优质高效的服务,基于云的数据挖掘平台极大的减少了企业数据挖掘的资金投入,缩短了企业新产品的研发周期,为企业创造了更大的效益。
  关键词:云计算概述;数据挖掘;平台架构
  中图分类号:TP311.13
  随着经济的发展和科技的进步,手机、电脑在中国随处可见,互联网甚至是移动互联网融入了人们的日常生活,互联网中无法估量的大量数据不断增长,愈演愈烈,面对着海一般的数据信息,人们不能准确的找到自己想要的数据,像手机APP,手游等移动互联网产品,每天都承载着非常多的数据,对运营商而言,如何进行数据分析以及数据挖掘成为一个亟待解决的难题。
  较于传统数据处理系统,云计算系统的出现让人眼前一亮,基于云的数据挖掘平台的建构为数据挖掘开辟了一条新路,云计算提供一个虚拟的平台,用户可以在任何地区运用任何终端选择自己想要的数据,而大规模的数据本身就存在一些问题,数据挖掘存在难度,本文就云计算的数据挖掘进行具体的分析如下:
  1 云计算概述
  一直以来云计算都没有一个统一明确的定义,根据多数人对云计算的定义,总结出以下两方面:(1)云计算通俗一点说就是一个资源盘,其拥有数以万计的可用虚拟资源,有些虚拟资源拥有不同的负载量,云计算的优势就是可用将这些负载量不同的资源进行新的合理分配;(2)就用户而言云计算的服务是方便简单的,且透明化,用户的最终目的是在云计算中获取想要的数据和服务,用户不用在意云计算本身的运行机制,然而云计算的系统也是存在隐患的,如果一个规模庞大的计算机群在运作的过程中仍然不间断的增加计算机的数量,那么云计算系统可能会出错甚至系统崩溃,可见单纯依靠硬件设施是不可取的,此时需要可靠的软件发挥作用,需使用冗余和分布式存储的方式,云计算系统另一个优势就是拥有自我检测系统模式,该模式在不影响正常运行的情况下,可以检测出无效节点并进行删除,总之,云计算系统数据多、存储能力强、计算能力快且准确率高,给用户带来高效、优质的服务。
  经过一直以来对云计算的研究总结其特点有五个方面,分别是虚拟化、通用性、扩展性强且规模大、可靠性高、经济性好等特点,具体来说就是云计算不是个实物,是个虚拟的拥有海量数据的平台,用户可以在世界的任何位置通过任何终端获取想要的数据信息和服务;云计算没有局限性,在云计算下可以构建出不同的应用,而且这些应用可同时运行;在不影响用户正常使用的情况下,云计算是可以扩展的,而且是动态扩展,现今最多可擴展几十万台电脑,整个扩展过程用户是可以看到的,是对外的;为了保证服务的质量和可靠性,云计算运用了多种方法如多副本容错和多计算节点同构可互换等;云计算由于自身的优势运用大量廉价节点构成云,采用自动化集中式管理机制,解决企业高昂的数据中心成本,较于传统系统云计算系统成本较低。
  2 数据挖掘的方式
  数据挖掘是一个循环反复、不断调整和修改的过程,这个过程漫长且复杂。从数据预处理到数据挖掘再到评估和表示这是数据挖掘的整个过程,数据挖掘的过程中方法很多,归纳如下:(1)广义知识挖掘,广义知识被挖掘出来后,与可视化技术相结合,用户可以直观的通过图表形式来了解;(2)关联知识挖掘;(3)类知识挖掘,分分类和聚类两种。决策树、神经网络、贝叶斯分类、支持向量机、遗传算法与进化理论、粗糙集、关联分类、类比学习、模糊集等为分类法。聚类法包括五种,分别是基于划分、密度、层次、模型及网格的不同方法;(4)预测型知识挖掘,包括一些方法和技术,方法有经典的统计方法,技术包括神经网络和机器学习技术;(5)特异型知识挖掘,所谓特异型指特殊的背离常规的异常规律。包括三个类别,分别是孤立点分析、序列异常分析和特异规则发现;(6)自定义数据挖掘算法。
  数据挖掘的过程以及方法可以通过图1直观的了解。
  3 基于云的数据挖掘平台架构
  针对传统数据挖掘平台而言,云计算的产生对其影响很大,云计算的分布式存储和计算使数据挖掘开始变革,数据挖掘云服务只有基于云计算平台才能得以实现,其设计思想是分层设计,思路是面向组件设计,整个平台自下向上分为三层,最下面一层也是最基础的一层是云计算支撑平台层,再往上一层是数据挖掘能力层,最顶层是数据挖掘云服务层。
  云计算支撑平台层的功能主要是提供数据的分布式存储和计算,最底层构建可以以企业自主研发的云计算平台为基础 ,也可以以第三方提供的云计算平台为基础。
  数据挖掘能力层的能力有算法服务管理、调度引起、数据并行处理框架等,这些都是基础能力,数据挖掘能力层支撑着它的上一层(数据挖掘云服务层)。这层不但支持内部数据挖掘算法和推荐算法库,对于外在的第三方数据挖掘算数法也可以接入。
  最顶层数据挖掘云服务层的主要功能是为外在企业和个人提供数据挖掘云服务,其涵盖多种多样的服务能力封装的接口形式,例如针对于简单对象的访问协议简称SOAP的XML等,本地应用程序编程接口也是其形式之一,基于结构化查询语言语句的访问在数据挖掘云服务层也是支持的,同时此层还提供解析引擎和自动调用云服务。
  总之,基于云计算的数据挖掘平台从很多方面是优于传统数据挖掘平台的,如大规模数据处理能力、数据动态扩展能力以及低廉的云服务和成本等。
  4 云计算关键技术
  如今大量数据挖掘最直接有效的方法是分布式计算方法,这个方法包括两部分一部分是分布式数据存储,一部分是分布式并行计算,现在的云计算平台已经涵盖了这两部分的能力,这两部分是云计算数据挖掘平台的核心支撑能力,GFS、KFS、HDFS等三种分布式文件系统是目前比较受欢迎的分布式文件系统,Google公司的分布式文件系统理论是三者的理论基础,KFS、HDFS两种分布式文件系统多被用于商业和学术领域。
  分布式并行计算框架在分布式计算方法中非常重要,其在计算过程中封装了一些技术细节,如任务调度、任务容错等,这样便捷了用户,用户只要把握好任务间的逻辑关系,不必注意这些技术细节,目前较为广泛应用的分布式计算框架有并行计算框架Mapreduce和迭代处理计算框架Pregel这两者都由谷歌公司提出,还有微软公司研发的Dryad。
  5 结束语
  随着互联网和移动互联网时代的到来,海量复杂的数据处理与数据挖掘困扰着各大运营商,与传统数据系统相比,云计算优势明显,强大动态扩展能力、独特的分布式存储和计算方法、以及低廉的成本优势吸引了越来越多企业和个人,基于云的数据挖掘平台,企业和运行商都因此减少了数据挖掘方面的资金投入,对这些企业来说无疑是减小了生产成本。
  参考文献:
  [1]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013(01).
  [2]黄章树,刘晴晴.基于云计算服务模式的数据挖掘应用平台的构建[J].电信科学,2012(01).
  作者单位:辽宁行政学院,沈阳 110161
其他文献
在车牌识别算法中,我们针对运动模糊时车牌识别率低下时识别率不高的问题,使用去运动模糊技术恢复清晰的车牌,并提高识别率。该方法建立在非盲卷的基础上,首先获取汽车的速度,然后计算运动核,再根据运动核通过非盲卷与盲卷算法恢复清晰的图像,在恢复清晰图像之后,车牌识别算法可以有效的识别率。此外,我们还分析了盲卷算法中,求取运动核的方法,并就二范数和一范数的区别做出分析,指出了这二种范数求解运动核的差异性。
未来10年内物联网技术将创造出14.4万亿美元的商机。到2022年,物联网技术将推动全球企业的利润总和增长21%。近日,思科销售及发展总裁罗博·洛依德(Rob Lloyd)表示,过去30年间
本文报道一种新型的乙型肝炎抗体膜片。测试时,仅需将25μl被检血清滴注于该膜上,经孵育与洗涤即可制得抗原与抗体复合物膜。用复合物膜组装成免疫电极,测定血清样品中乙型肝
目的对哮喘宁联合布地奈德气雾剂在支气管哮喘临床治疗中的效果进行研究。方法在患者及其家属知情和同意的情况下,我院将2014年6月份至2015年6月份收治的100例患者为研究对象
前不久,为了解中学生对学校图书馆利用的情况,我们曾对位于某县城的一所重点中学部分学生进行了抽样调查。该中学现有高中、初中学生2400余人,图书馆藏书5万余册,图书馆设有
近年来伞国有3个直辖市、6个省份、200多个城市提出建设智慧城市。智慧城市建设正…火城市向中小城市、由东部向中……相关研究报告显示,截至2012年4月,全国有3个直辖市、6个省
本文进行了N-(β-羧丙酰基)异鲁米诺的电致化学发光行为的研究。采用正矩形液脉冲电压,在KOH-KCl-H2O2-(pH11.6)介质中,N-(β-羧丙酰基)异鲁米诺测定的线性范围为4.0×10^-10 ̄7.0×10^-8mol/L,检出限为2.0×10^-10mol/L。本文对此体系的电
美学一向负载着人类高尚的审美理想,而且对难解的美学问题进行哲学的叩问,表征着人类强烈的求知欲,同时又是个体人生价值的实现.重新认识并在新的文化背景下还原美学原本的角
随着社会生产力的发展,公共图书馆作为人民群众学习与文化生活的重要组成部分,对构建学习型社会起着积极的作用。
摘 要:云计算是计算机应用的一种新模式,主要是通过互联网来实现资源的配置和共享以及管理等,随着计算机技术的飞速发展,云计算这种新型的交付管理方式憑借自身便捷、易操作的特点将会得到越来越多的关注度。目前大学生计算机应用大赛中对于云计算技术的应用主要是借助云计算便捷的管理方式和先进的框架结构,为计算机用户提供各类必须的服务。云计算技术自萌芽到实现一直凭借其极强的实用性得到广泛的应用,本文主要从云计算的