基于云计算的数据挖掘技术

来源 :科学时代·上半月 | 被引量 : 0次 | 上传用户:fragishsss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着云计算时代的快速发展,基于云计算的大批量的数据挖掘已经成为解决传统集中式数据挖掘没法适应大量数据不断增长的切实、高效、可行的方法。本文通过介绍云计算的含义以及特点、发展现状,分析了利用云计算技术以便实现数据挖掘的优势,总结了目前基于云计算的有关数据挖掘技术的现状以及存在的问题,给出了合理可行的解决方法和措施。
  【关键词】云计算;数据挖掘
  数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。大批量的数据不断增长,各式各样的数据挖掘需求非常之高,以前的集中式数据挖掘技术已经无法适应。云计算因为它可弹性变化的计算能力和海量的存储能力使得它成为解决大批量数据挖掘的突出的方法。
  1.云计算在数据挖掘方面的优势
  1.1 云计算的含义
  云计算(cloud computing),分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务【1】。
  最简单的云计算技术在网络服务中已经随处可见,例如搜寻引擎、网络信箱等,使用者只要输入简单指令即能得到大量信息。 未来如手机、GPS等行动装置都可以透过云计算技术,发展出更多的应用服务。 进一步的云计算不仅只做资料搜寻、分析的功能,未来如分析DNA结构、基因图谱定序、解析癌症细胞等,都可以透过这项技术轻易达成[2]。 稍早之前的大规模分布式计算技术即为“云计算”的概念起源。
  云计算时代,可以抛弃U盘等移动设备,只需要进入Google Docs页面,新建文档,编辑内容,然后,直接将文档的URL分享给你的朋友或者上司,他可以直接打开浏览器访问URL。我们再也不用担心因PC硬盘的损坏而发生资料丢失事件。
  1.2 云计算的特点
  云计算的特点如下:
  1.2.1超大规模
  “云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
  1.2.2虚拟化
  云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务【3】。
  1.2.3高可靠性
  “云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
  1.2.4通用性
  云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
  1.2.5高可扩展性
  “云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
  1.2.6按需服务
  “云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。
  1.2.7极其廉价
  由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务【4】。
  云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。
  1.3 云计算的发展与现状
  21世纪10年代云计算作为一个新的技术趋势已经得到了快速的发展。云计算已经彻底改变了一个前所未有的工作方式,也改变了传统软件工程企业。以下几个方面可以说是云计算现阶段发展最受关注的几大方面:
  1.3.1云计算扩展投资价值
  云计算简化了软件、业务流程和访问服务。比以往传统模式改变的更多,这是帮助企业操作和优化他们的投资规模。这不仅是通过降低成本,有效的商业模式,或更大的灵活性操作。有很多的企业通过云计算优化他们的投资。在相同的条件下,企业正扩展到更多创新与他们的IT能力,这将会帮助企业带来更多的商业机会。
  1.3.2混合云计算的出现
  企业使用云计算(包括私人和公共)来补充他们的内部基础设施和应用程序。专家预测,这些服务将优化业务流程的性能。采用云服务是一个新开发的业务功能。在这些情况下,按比例缩小两者的优势将会成为一个共同的特点。
  1.3.3以云为中心的设计
  有越来越多将组织设计作为云计算迁移的元素。这仅仅意味着需要优化云的经历是那些将优先采用云技术的企业。这是一个趋势,预计增长更随着云计算的扩展到不同的行业【5】。
  1.4 基于云计算的数据挖掘的优势
  利用云计算的方式来解决对大批量数据进行挖掘的优势大致可归结为以下三点:
  1.4.1因为数据挖掘处理的数据是大批量的,所以必须从大批量的数据中挖掘出可以让人理解的大规模的数据,并且由于互联网上数据的增长非常迅速,所以数据挖掘的任务要比单纯的搜索任务复杂的多,这就使得在挖掘过程中有更好的应用环境和开发环境。在这样的境况下,基于云计算的方式是最为理想的。   1.4.2基于云计算可以实现低成本的有关分布式并行计算环境,因此,它可以使得企业的数据处理成本降低,同样也可以不依赖于高性能的机器。
  1.4.3基于云计算的数据挖掘非常方便,不在乎底层。在并行化的情况下,云计算可以利用原有设备加大对大量数据的处理能力及其速度,保证了容错性,也扩大了结点。
  2.基于云计算平台的数据挖掘实例
  至今,基于云计算的数据挖掘在某些方面已有一些成果。下面是基于云计算数据挖掘的研究成果。
  2.1由中科院计算技术研究所开发的中国最早的基于云计算平台的有关并行数据挖掘系统PDMiner(Parallel Distributed Miner)。
  2.2中国移动研究院研制并开发了并行数据挖掘工具也是基于云计算平台Hadoop 的,因为采用云计算技术,所以实现了大批量数据的存储、分析、处理、挖掘,并且可以提供高性能、高可靠性的数据挖掘分析支撑工具。
  2.3 ASF 研发的开源项目数据挖掘平台Apache Mahout,可以使开发人员在Apache 的许可下免费使用,并研究出可伸缩的机器学习算法。
  2.4开源数据挖掘系统Augustus是开放数据组利用Python 语言开发的,它支持预测模型标记语言,也能方便的运行在Amazon的云计算平台上。
  2.5德国Fraunhofer 智能分析和信息系统研究所研发了一个图形化的数据挖掘工具包,把软件和平台有效的结合在一起,完成了软件在云平台上的转移。
  3.基于云计算数据挖掘面临的问题和挑战
  虽然云计算技术已有相当成功的应用,但它的技术并非很成熟。云计算仍然是发展的初级阶段。所以,利用云计算进行数据挖掘还会面临好多问题与挑战:
  3.1关于云计算数据挖掘算法的并行性方面仍存在问题。用怎样的算法来解决目前的数据挖掘,非所有算法都可以利用云计算的完成任务,在此要选择最恰当的算法,有良好的并行策略,提高并行效率。
  3.2不确定性。数据挖掘的过程中会有不确定性,因为数据挖掘任务的在描述过程中有不确定性,预处理及数据采集也有不确定性。
  3.3数据挖掘所采用的方法以及得到的结果有不确定性。在数据挖掘过程中,尽量确定其可确定性。
  3.4对于挖掘结果的评价也具有不确定的。每位用户考虑的最终的挖掘目标不同,这使得对结果评价也有不确定性。
  3.5进行数据挖掘云计算,云服务软件的可信性问题非常重要。服务必须是正确的,服务要非常安全,服务的质量也要相当好
  针对以上问题和挑战,有下面几点对策:
  ①基础建设方面,我们要有良好的个性化和多样化的数据挖掘云服务的平台。
  ②虚拟化技术在数据挖掘云服务中要起关键性的作用。
  ③需求方面实现个性化和多样化。
  ④数据挖掘算法要可信。
  ⑤涉及到的数据挖掘算法一定要安全。
  4.结束语
  本文阐述了有关云计算的含义、特点和发展现状,分析了利用云计算技术在数据挖掘方面的优势,并调查了关于云计算的数据挖掘技术的现状,概括了基于云计算的数据挖掘技术所面临的问题及其挑战,给出了一定的解决方法和措施。随着云计算技术的快速发展,相信在不久的将来一定会给数据挖掘带来新的突破和强大的技术支撑。
  参考文献:
  [1]玄光男.程澜伟.遗传算珐与工程设计[M].北京:科学出版社,2000.
  [2]曾黄麟.智能计算[M],重庆:重庆大学出版社.2004.
  [3]陈明.神经网络模型[M].大连z大连理工大学出版社,1995.
  [4]韩瑞峰.基于遗传算法的化学反应动力学模型参数优化研究[D].山西大学颈士学位论文, 2001.
  [5]朱军,韩璃峰.随机数发生器对蒙特卡罗算{去求解定积分的影响[J].电脑开发与应用,2004,17(l0)11-12.
  注:国家自然科学基金项目号61462057。
其他文献
【摘 要】混凝土框架结构和剪力墙结构是目前高层建筑最常用的建筑结构形式,上述结构中均需设置相应填充墙以达到围护与分隔空间的作用。随着我国住房商品化的进展,人们对居住环境和建筑质量的要求不断提高,对建筑物墙体裂缝的控制要求更为严格。框架结构和剪力墙结构中的填充墙出现开裂现象,造成使用不便,引起安全隐患。因此加强防范高层建筑填充墙裂缝的控制已成为共同关注的课题。  【关键词】高层建筑;填充墙;裂缝控制
【摘 要】水泥混凝土路面施工的各程序要点直接影响到水泥混凝土路面的工程质量和使用性能。本文结合笔者多年的工作经验,主要对水泥混凝土路面施工质量控制进行了探讨。  【关键词】混凝土路面;施工;质量控制;问题处理  水泥混凝土路面的稳定性较好、耐久性和强度较高、其平整度也容易控制。  水泥混凝土路面随着施工技术的不断完善,其经济效益也越来越明显,但水泥混凝土路面比较容易出现各种早期损坏现象,不同程度影
【摘 要】建筑物的防水作用是其使用的最主要功能之一,在房屋的建筑过程中,防水工作也是此项工程最主要的一部分工程,防水工作的好坏,直接影响到建筑物的使用寿命以及使用功能等方面。目前,我国城市建筑均为钢筋混凝土,尤其平顶的房屋,渗漏的工程质量问题更为显著,渗漏部位多为:卫生间、浴室以及地下室等,屋顶排水系统下方也会出现。出现渗漏后,不但会增加维修费用,而且维修工作也较难进行。本文分析了住宅建筑防水工程
【摘 要】一个工程项目从立项、规划、设计、审核到施工,及至竣工验收,资料归档管理,整个流程,环环相扣,任何环节都不能有丝毫闪失,否则其所引起的损失均是难以估量的。其中,作为施工这一至关重要的一环,是一个将设计意图转换为实际的过程,在此过程中,许多设计中考察欠缺,或是同实际情况有出入的都会一一凸现出来,甚至同以后使用维护相关的问题也会有所暴露,值得重视,更何况其任一道工序均会对整个工程质量产生致命的
期刊
【摘 要】由于我国的经济飞速发展,在有关城市化的建设上要求也越来越高,修建城市的交通道路就是其中最为重要的一个项目之一。然而在进行修建道路的过程中往往会遇到很多问题,无论是道路的设计、施工中出现的问题、城市的整体面貌、施工时的影响等等多方面都需要在施工之前进行考虑。近年来,我国虽然在市政道路方面获得了很大的发展,同时也取得了一定的成就,国家也随之越来越重视市政道路这一方向。但是,目前来看,在我国的
《数列》一章的知识是高考必考内容,纵观近几年全国各个省市的高考题型,可以看到由数列的递推公式求通项公式已经成为高考考察数列知识的重点和难点之一.对于较为基础的等差等比数列通项公式以及通过累加法、累乘法求通项公式,考生已经非常熟悉,但通过构造辅助数列来求解通项公式的题型考生还是普遍感到比較困难和困惑.
期刊
【摘 要】暖通工程施工是建筑工程施工中非常重要的组成部分,暖通工程是施工质量对整个建筑工程的质量有很大影响,因此,在进行暖通工程设计的时候就要保证设计质量,在施工过程中要对施工的技术进行不断完善,同时做好施工现场管理工作,做好防腐保温工作,这样能够更好的保证建筑工程的施工质量和施工效果。  【关键词】暖通工程;施工建设;管道防腐保温  近年来,我国的经济建设取得了很大的进步,在经济快速发展的时期,
【摘 要】桥梁水下混凝土灌注桩的施工工作具有复杂性、隐蔽性、连续性等特点,不仅给工程的建设带来很大的安全隐患,而且还易出现坍孔、钢筋骨架上浮等施工事故,从而造成人员伤亡和极大的经济损失。本文围绕桥梁水下混凝土灌注桩的施工技术方法展开讨论,包括桩位的测量定位、埋设护筒、钻机就位、钻孔施工、终孔验收、安装灌注导管、灌注水下混凝土、检验成桩等,以期为同行提供参考。  【关键词】桥梁;水下混凝土灌注桩;施
乐理在音乐教学中是非常重要的一门学科,同样是音乐的一项基础内容,是每一个学习音乐的学生都要掌握的理论。不过,乐理不仅仅是单纯学习其理论内容,其要与听力练习予以有机的