基于“云”环境下的数据挖掘并行关联规则算法研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:qiukaifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、通讯、网络和Web技术的快速发展及普及,数据呈爆炸式的增长,在社会各领域积累的数据量很容易就达到GB和TB级,乃至PB级。且80%以上的数据是非结构化的,难于直接使用,步入到大数据时代更加明显。要想从海量数据中快速地高效地挖掘出潜在的、有价值的知识,可借助目前已日趋成熟的云计算技术来完成。云计算的出现解决了面对海量异构数据时传统数据挖掘算法效率低下的局面,Apache基金会其中的一个顶级项目Hadoop就是开源的云计算技术,以MapReduce和HDFS为关键技术对海量数据进行挖掘。基于此,本文将Hadoop平台与传统的数据挖掘关联规则Apriori算法进行整合,验证在“云”和“非云”的环境下数据挖掘算法效率的变化。本文首先阐述了Hadoop的系统架构,并对Hadoop开源框架的核心架构MapReduce和HDFS运行机制进行深入的探讨与研究,设计出基于Hadoop系统与传统数据挖掘系统相结合的云挖掘模型。其次,介绍云计算平台的搭建与部署及常用的Shell命令。然后,深入研究传统关联规则Apriori算法,并将该算法移植到Hadoop平台验证其效率。为了更好发挥云平台的作用,引入了矩阵概念,设计出新的改良算法Apriori_MMR。最后,通过真实数据在Hadoop平台上验证算法的正确性、可行性及高效性,通过实验结果对比分析可知,改良后的Apriori_MMR算法性能更优。总之,云计算为数据挖掘算法的改进带来了新的思维模式,云挖掘也将会成为未来数据挖掘的研究趋势。本文把传统的数据挖掘算法与云计算相结合,为数据挖掘其它算法的改进提供了一定的参考价值。同时,我也相信在不久的将来会有更多的算法被移植到Hadoop云平台上来完成。
其他文献
<正>自然主义文学是19世纪中期以后兴起的文学流派,至今已有一百多年。国内关于自然主义文学的研讨众多,然而其中多数缺乏深度、广度,许多理念也未能被准确把握和厘清。曾繁
在经历了与鲁迅的"死别"和与萧红的"生离"之后,萧军来到延安。关于萧军在延安这段历史,此前许多人从不同角度回忆过、讲述过。在纪念萧军百年诞辰之际,本刊首发萧军的延安日
期刊
时尚消费文化这一概念自现代哲学领域被提出之后,历经变迁和延伸,形成了新的涉及社会学、经济学、市场营销学以及心理学、传播学等领域的概念。对时尚消费价值观的形成以及主
司法调解作为世界范围内一种惯用的纠纷解决机制,它具有提高司法效率、合理利用司法资源和避免当事人诉讼成本的功能。在西藏社会转型过程中,传统的宗教至上的理念、自然经济
投资者关系管理通过充分的信息披露,促进投资者对公司的了解和认同,以求保持公司经营的透明度、强化在资本市场的良好形象,实现公司价值最大化的战略管理行为。随着我国证券市场
随着我国国民教育体系的持续完善和学前教学系统的不断发展,立足于儿童的全面发展提高学前教育质量问题得到了越来越多的重视。本文在阐述了学前教育意义的基础上,对提高学前
<正>(排名不分先后,扫码了解详细信息)金泰南燕湾金泰·南燕湾项目由北京金泰集团开发,金泰集团属于北京市京煤集团旗下,集团位列中国企业500强,业务涉及煤炭、煤电、城市服
[目的]探究旋提推拨正骨复位法配合理筋点穴治疗混合型颈椎病的临床效果。[方法]本研究选取2016年3月20日至2019年3月20日在济源市中医院康复科就诊的混合型颈椎病患者480例
目的总结腮腺多形性腺瘤临床特征,探讨不同肿瘤分区面神经解剖方式以及不同肿瘤直径的腮腺浅叶多形性腺瘤手术方式的选择。方法回顾性分析收住于广西医科大学第一附属医院耳