基于HADOOP的数据挖掘研究

被引量 : 0次 | 上传用户:vialli_7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术以及互联网运用高速的扩展到人类社会生产生活的各个方面,数据量呈现出爆发性的增长。如今,大数据集以及超大数据集的存储和处理已成为很多企业面临的新的挑战。而如何能以更加快速、高效、低成本的方式从海量数据中挖掘有价值的、可理解的知识从而帮助企业制定决策成为数据挖掘技术面临的新课题。云计算技术的出现为数据挖掘技术的发展带来了新的机遇。云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上,从而实现了对超大数据集的巨大的存储和计算能力。由于可以使用大量的廉价计算机通过集群来代替价格高昂的服务器,云计算大大的降低了成本。使用云计算技术提供的巨大的存储能力和计算能力,数据挖掘技术进入了基于云计算的数据挖掘时代。HADOOP是一个用于构建云平台的Apache开源项目。使用HADOOP框架有利于我们方便、快速的实现计算机集群。在HADOOP平台上,采用了HDFS(分布式文件系统)来实现超大文件的存储和容错,而使用了MapReduce的编程模式来进行计算。将HADOOP运用到数据挖掘,一个关键的问题就是如何实现将传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法,结合算法自身的特点,我们可以很容易或者需要深入研究才能发现它是否能够并行。对于能够并行实现的算法,结合MapReduce编程模式,我们可以将其移植到HADOOP平台上,高效的、并行的完成数据挖掘任务。本文首先详细的介绍了云计算和HADOOP平台的核心架构以及运行机制。然后结合传统的数据挖掘系统提出了基于HADOOP的数据挖掘平台的技术架构。所以,在深入了解到MapReduce编程模式后,结合决策树算法中的SPRINT算法,我们成功的实现了将SPRINT移植到HADOOP平台。在给出详细的算法后,我们通过实验验证了算法的有效性。
其他文献
在房屋建筑工程施工技术中,大体积混凝土施工技术是其重要组成环节。由于大体积混凝土在高层大截面柱、基础施工、地下室底板及装订承台梁施工等构件施工中都有所应用,因而大
腰椎功能下降是腰痛反复发作的主要原因,腰痛的康复包括手术、药物及其他非医学类的治疗方法,国外系统评价已经证实功能锻炼对于慢性下腰痛患者康复的疗效优于常规治疗。本文
随着通信网络的不断扩张,网络服务要求的不断提高,新一代网络架构越来越呈现集中的趋势,促使运营商急需建设集中化、综合化、智能化的综合网管系统。而告警相关性分析是综合
管理会计从20世纪初发展到21世纪,对帮助企业管理者科学地制定经营决策,合理地利用经济资源,有效地强化内部管理和提高经济效益起着十分重要的作用。20世纪70年代末期,西方管
中国内地对娱乐谈话性节日有很大的市场需求,数据显示仅仅在新闻与电视剧之后。然而,尽管中国娱乐谈话性节目不断的推陈出新,它们的收视率还是没有明显的进步,甚至有下降的趋
《盘王大歌》又称《盘王歌》、《盘皇歌》、《盘王细歌》等,是瑶族地区历史悠久、流传广泛的、在祭祀“盘王”和“还盘王愿”时必唱的传统歌谣。《盘王大歌》的演唱,是瑶族人
在现代市场经济中,中小企业不仅是市场经济的主体,也是市场经济活力的源泉。我国中小企业在稳定经济增长、缓解就业压力、提高居民收入和推动技术进步等方面发挥着越来越重要
二十世纪八十年代以来,公共行政所面临的政策环境发生了巨大的改变——后现代社会的发展情势、公民社会的治理潜力以及公共行政范式的变迁,使得传统的治理模式不能满足后现代
信息技术的进步使电子商务获得空前发展,搜索引擎、个性化技术、推荐网站以及虚拟社区等技术的使用正不断地改变着消费者的消费行为与消费习惯,由此可带来网络销售的两个新特
15个正常受试者采用随机、双盲和安慰剂对照的方法进行研究,受试者服用阿普唑仑0.8mg或者安慰剂,然后在服药前后进行两次磁共振扫描。在扫描过程中,他们均保持静息状态。应用