大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:tony_yang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着当前科学技术的发展,我国各行业的发展进入了大数据时代,这就为数据挖掘算法创造了条件。在大数据环境下,为了使数据挖掘的速度得以提高,本次研究主要对基于Hadoop框架的数据挖掘算法进行研究,得出由PrePost算法改进的挖掘算法MRPrePost,这种挖掘算法是以Hadoop为平台,使编程难度得到降低,并且容易管理,通过深度优化使内存的开销得到降低,通过负载均衡的方法进行分组以使并行算法的重要性能得到提高,从而使这种算法提升运行速度,适应大数据环境下的数据挖掘。
  关键词:大数据环境;Hadoop框架;数据挖掘算法;研究
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)29-0222-02
  随着当前一些设备走向高智能化、高存储量,世界的信息量早已突破ZB级别,如此繁多的信息量已经使我们进入了大数据环境中,但如何使这些信息中包含的优质信息极其潜在价值进行精准的挖掘是当前面临的工作重点以及难点。数据挖掘已经在我国开展很多年,但这一方面的发展却始终追逐不上信息量的暴增,目前所使用的数据挖掘算法在大数据环境下早已经不再适用,大数据的挖掘出现了严重的滞后的现象,因此,在大数据环境下,掌握科学的数据挖掘算法是当前的主要任务。本次研究主要通过Hadoop框架对已有的算法PrePost进行科学的改进,从而引出适合大数据环境下的数据挖掘算法MRPrePost,该算法具有计算快的特点,并能够适应关联规则数据挖掘,是当前数据挖掘算法的新模式。下文将对这种数据挖掘算法进行研究,以实现对大数据环境的适应。
  1 相关技术的简要概述
  1.1 关联规则数据挖掘技术
  通过这项技术进行数据挖掘的目的在于搜寻事务之间存在的内在联系,并且这项技术已在各行业中得以推广应用,例如当今与我们生活息息相关的超市购物,通过这项技术能够将交易记录作为依据,然后搜索相关的物品,并对顾客的购买习惯进行分析,然后根据分析的结果对货架及库存进行安排,并对顾客进行智能分类。数据挖掘的前期准备工作非常重要,首先它需要进行最小置信度以及支持数进行参数设置,从而使数据挖掘支持数高于最小支持数,从而以最小置信度使有效的管理规则数据产生。
  1.2 Hadoop技术框架
  Hadoop作为Apache中的开源项目之一,其能够进行提供可靠、开源、可扩展的分布式计算应用工具。Hadoop的组件主要包括两个,分别为MapReduce以及HDFS,这两个组件的作用分别在于数据的计算和数据的存储,以下将分别介绍这两个组件。
  1.2.1 MapReduce组件
  此组件是能够对数据进行计算,属于一种分布式的计算框架,能够对离线大数据进行有效的计算。并通过函数式编程这种模式,对Map函数以及Reduce函数进行合理的利用,从而实现较为繁杂的计算。分布式的计算框架如图1所示。
  1.2.2 HDFS组件
  此组件是一种独立形式的文件系统,可以通过自身的存储功能对MapReduce分布式計算框架进行服务,具有高可用性以及高容错性,以块存储作为基础,并通过流数据模式来进行正常的访问,一般情况下,数据节点具备相互备份的功能。存储块的初始大小被默认为64M,使用者也可以根据自身的情况对其大小进行自定义。HDFS从结构上来讲,主要包括DataNode数据存储、NameNode目录管理以及Client访问客户端三大部分。其中DataNode主要是文件系统中基本的存储单元;NameNode主要对系统集群配置管理、命名空间以及复制存储块;Client主要是文件系统中的一种应用程序,HDFS具体的结构体系如图2所示。
  2 大数据环境下基于Hadoop框架的数据挖掘算法
  本文所提及的MRPrePost数据挖掘算法使以PrePost为基础进行改进形成的,其能够进行关联规则数据挖掘。次数据挖掘算法主要包含三个重要的部分,分别为统计频繁的一项集、F-list的均匀分组以及并行挖掘频繁模式。次算法具体的流程见图3。
  2.1 统计频繁的一项集
  并行计算以水平分片的方式将数据库进行处理,以Block为各子文件进行命名,同时使其分配至各worker节点之上,并将其当做Map函数的主要输入值,对其出现的次数进行统计。此过程具体来讲主要是通过Map函数使Block文件分为pair,然后将String以项集为依据进行分割,key在此为单项,通过Combine函数将同类的key值进行合并,得到新key值,并将其当做下一阶段的Reduce的输入值,最后将各节点中包含的Key值进行总体合并,并将数阈值作为依据进行对FIM1进行生成,并生成全局的F-list。
  2.2 F-list的均匀分组
  为了使F-list的规模得到有效调节,必须对数阈值进行设置,当关联规则的比价较为精准时,对频繁一项集的需求量会增多,但是需要对其进行适当的控制,以确保PPC-Tree树能够正常的建立,使数据挖掘的后期工作能够正常进行,为了达到这一点,可以对PPC-Tree树进行分割若干个子树,这些子树相互独立,从而使PPC-Tree树的占存及深度得到降低。在对F-list进行分组的过程中,可能会产生系统的负载不平衡的状态,若对此不能得到有效的处理,将会使系统的性能受到严重的影响。因此需要将F-list中包含的所有的项集进行均匀分布,从而使系统的负载均衡化,充分发挥出系统的性能。本次研究主要通过使F-list中所包含的全部项集均匀分布各组中,将分好的项集记作G-list,将项集中的组员记作gid,当组数为2的时候,最小支持数Supportmin即为2,其分组的情况如表1所示:
  2.3 并行挖掘频繁模式   将F-list进行分组的目的是为了使所有的事务进行重划,从而保证独立形式的PPC-Tree树就此形成,本次研究将事务集中不频繁出现的项集进行去除,并通过支持数的降序顺序对频繁项集进行排序,形成path路径,通过此路径对全部的项集进行遍历,若path在项集中有对应的组员(gid),则应将该组员(gid)同path左侧的项形成Key值发送至Reduce函数中,在进行发送前,应将其进行Java序列化处理,使序列对象PathArray得以建立。在序列化处理完毕后,对各节点包含的新任务进行启动。
  2.4 数据挖掘算法的性能测试
  为了测试MRPrePost数据挖掘算法的性能,本次研究特选取了我国2007年1月至2017年1月期间所发生的交通事故统计得来的数据集,并对PFP-Growth数据挖掘算法和MRPrePost数据挖掘算法进行实验对比,两者所选用的硬件设施均为相同配置的台式设备,CPU、操作系统、内存以及硬盘容量都相同,通过两者的运算可以看出,MRPrePost数据挖掘算法在计算速度方面较PFP-Growth数据挖掘算法快,与此同时,MRPrePost数据挖掘算法在使用效果方面也较PFP-Growth数据挖掘算法要好很多。因此,这种数据挖掘计算方法较为实用。
  3 结束语
  综上所述,由于当前的数据挖掘算法在计算规则方面存在繁琐复杂的状态,并且当前所使用的数据挖掘算法的计算速度也较为缓慢,因此,本次研究主要针对目前数据挖掘算法存在的问题,引出一種基于Hadoop框架的数据挖掘算法MRPrePost,并对其计算原理、组成结构、特点优势进行说明,通过对比性能实验来说明其优势,性能实验结果表明:通过PrePost改进而成的数据挖掘算法MRPrePost能够对关联规则数据挖掘进行有效的适应,并且提高了计算的速度,缩减了数据挖掘计算方面所耗费的时间,对这种算法进行应用,具有重要的现实意义。
  参考文献:
  [1] 廖晶贵.基于Hadoop的大数据关联规则挖掘算法的研究与实现[J].华南理工大学,2015,11(2):221-221.
  [2] 洪波,吕燕霞,黄磊. 大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现[J].北京宣武红旗业余大学学报,2017,25(7):41-44.
  [3] 刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,13(12):144-145.
  [4] 李欧.大数据环境中科技创新服务平台为创新主体提供深度数据挖掘[J].产业与科技论坛,2017,16(17):10-11.
  [5] 刘占波,王立伟,王晓丽.大数据环境下基于数据挖掘技术的高校科研管理系统的设计[J].电子测试,2017,12(1):44-45.
其他文献
随着网络在商业应用中的普及,越来越多的企业同时拥有了内网(局域网)和外网(Internet网)。如何保证外部网络用户无法获取内部网络的结构呢?通过设置NAT可将内网与外网分离,这样外部接入用户就很难获取内部网络的情况,而内部用户可随时访问这两个网络中的资源。下面我们就对NAT设置做简单介绍。  1.NAT定义  NAT(Network Address Translationl网络地址转换,允许一个
本文以秦皇岛港的发展为研究对象,分析了秦皇岛港优越的地理位置和自然条件,通过建立国际化物流港口的构想,提出了相关的战略规划.
近10多年墨学研究在中国大陆成为显学,不仅学术研讨活动频繁,而且研究成果累出,新墨学在正在形成。
地方中小型高校办学定位应该从自身的实际出发立足地方,以市场为导向,服务于区域经济、政治、文化和社会。与这种定位相适应,课程改革在整体设计上要体现特色化、灵活性和综合化
高等学校的科学分类和合理定位问题,是我国高等教育面临的一个非常重要的热点和难点问题。在我国高等教育从精英化教育进入到大众化教育阶段,如何以科学发展观指导不同类型、不
当前,大数据已成为继物联网、云计算之后的信息技术产业中最受关注的热点领域之一。随着大数据从概念渗透转向应用发展,大数据产业正处在蓬勃发展的机遇期。大数据技术将在开源
本文从人类道德的发展方向、人的全面发展以及社会主义道德建设的目标三个方面阐述了道德“以人为本”的必然性。
我们知道,局域网的优势就在于可以共享资源。但是,在Windows中可以共享的对象是比较有限的。随着优盘、扫捕仪、打印机、摄像头、音箱等USB设备的逐渐普及,Windows的设备共享能力受到了前所未有的挑战。如果能在网络环境中远程使用USB设备,那将大大提高USB设备的使用效率和灵活性。使用本文介绍的相关软件,就可以让您轻松共享远程主机上的任何USB设备,不管您处于局域网、广域网、VPN虚拟网络、I
摘要:步入二十一世纪以后,在网络技术的快速发展之下,计算机网络技术专业课程备受重视。在社会的发展之下,高职计算机网络技术若能按照社会的用人需求设置课程,一定会在培养人才方面收到良好的效果。  关键词:高职;计算机网络技术;专业课程设置;创新问题  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)08-0110-02  在我国高职的教育领域里,大多数学校都是以培养学生
随着高校教育信息化建设日渐成熟,校园网络环境变得更为错综复杂,由此带来的网络安全隐患不言而喻。仅依靠防火墙技术来保卫校园网络安全显得势单力薄,构建入侵检测系统是校