基于Hadoop的数据挖掘算法并行化研究

被引量 : 15次 | 上传用户:ayopr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会互联网技术和计算机技术的蓬勃发展,大量的数据信息被保留下来,各种各样的信息呈现出了爆炸式的增长。面对这样海量的数据,如何高效可行的进行数据挖掘是当下社会面对的一个棘手的问题。传统可靠准确的串行数据挖掘算法可以处理小规模数据,但不一定适合处理大规模数据。在这样的要求下,并行数据挖掘算法应运而生,作为并行计算的一个重要技术工具Hadoop并行框架越来越引起商业界和学术界的重视,利用Hadoop并行框架研究数据挖掘算法也是学术界的一个热点问题。Apriori算法做为最典型的关联规则挖掘算法,在大规模数据下挖掘时主要面临的技术瓶颈是庞大的数据量多次遍历导致I/O瓶颈,进而导致计算时间大量增加。而针对Aprior算法的优化算法目前已有很多,主要的并行算法包括CD(count distribution)、 DD(data distribution), CaD(candidate distribution)算法等。PageRank算法作为商业搜索引擎的核心算法,在面临数量飞涨的网页数据时,也难以避免处理多轮迭代和遍历网页的耗时开销。就PageRank算法处理大规模数据时的问题,学者已有的成果也很多,例如将PageRank算法直接移植到Hadoop平台之上,但是MapReduce自有其分布式计算的特点,单纯套用可以实现并行,但是不一定达到效果最佳。本文重点在于对Apriori算法和PageRank算法在Hadoop平台下的移植和优化做了深入的研究:Apriori算法结合Hadoop平台MapReduce框架实现分布式计算,在每一轮迭代时,利用DataJoin并行连接和剪枝运算实现下一轮候选集的产生。使得Apriori算法产生频繁项集的整个过程并行化,并行化粒度得到提高。本文将PageRank算法的输入做了处理,从之前单个网页输入变为一个网站输入,处理过程引入了三个层次的数据压缩方法,从而减小数据通信量和存储量。针对以上提出的优化算法,本文还利用不同的数据集和不同的分布式集群试验了算法的性能,并将之前的算法与本文提出的算法做了比较。实验表明,本文提出的算法在数据适应性和算法效率上都有提高,缩减了算法执行时间,有一定的实际意义。
其他文献
重庆大足石刻作为"唐宋石刻艺术的文化宝库"与"世界石窟艺术最后的丰碑",并没有如国内外其他世界文化遗产一样充分利用计算机图形图像处理、移动终端等现代科技手段进行文物
借助巯基试剂,在纳米金颗粒表面修饰生物活性物质Mb,制备保持有Mb生物活性的功能化金纳米巯基乙胺-Au NPs-Mb.采用UV-Vis、FTIR光谱和投射电镜表征其结构,该纳米颗粒分布均匀
目的:比较机用Pro Taper(PT)和Reciproc(RE)两种镍钛根管预备系统对弯曲根管的成形能力。方法:选择20个离体下颌第一磨牙,随机分为2组(n=10),分别用PT和RE进行根管预备并记录
为了给矿区的环境污染监测提供参考,对贵州省黔西南州王家湾金矿采集区的拟阔叶小石藓(Weisia platyphylloides Card)、舟形藻(Navicula Bory)和蕨的叶、茎、表土和根际土以及矿
目的探究选择性痔上黏膜切除吻合术治疗混合痔的临床疗效及并发症发生情况。方法采用回顾性分析的方法,将2013年8月-2015年8月在本院接受治疗的60例混合痔患者的临床资料进行
目的探讨人性化综合护理对冠心病经皮冠状动脉介入术(PCI)治疗患者负性情绪及护理满意度的影响。方法选取邢台市第三医院2015年6月—2016年6月收治的冠心病PCI治疗患者85例。
2007年恩施重大地质灾害频发,造成重大人员伤亡和经济损失。在分析地质灾害特征、形成条件及影响因素的基础上,提出了重大地质灾害的防治方案,对恩施州系统性防治地质灾害发生,减
定语从句是英语语法的重点和难点,本文旨在探讨有关定语从句限定词在不同场合如何选择的问题.
暗示教学法是暗示学原理在教育中的应用,多适用于外语教学,并以超常的教学效果著称。本文在回顾暗示教学法基本理论的基础上,联系高职英语教学实际,探讨其在高职英语教学中的
清末新政是在戊戌变法的基础上进行的一次更全面、更深入的变革 ,它对推动中国近现代化进程起着积极的作用。因为它是由清政府的实际统治者发起和推动的 ,它具有政治上的“权