云计算平台下的数据挖掘研究

被引量 : 0次 | 上传用户:qywang88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代的互联网信息中蕴含着非常丰富的商业价值,高速准确地从这些数据中挖掘出有用的信息和知识,可以让互联网提供商在激烈的商业竞争中占领先机,从而获取商业上的成功与经济利益。数据挖掘最初只是用于处理少量数据,随着输入的数据规模增大,程序处理耗费的时间将会非常长,对于如今爆炸式增长的互联网数据甚至达到了单机都无法处理的地步。云计算平台非常适合处理大规模数据,具有非常高的可拓展性,可以通过动态增加平台计算节点个数来增强其存储和计算能力。如果我们能够将传统的数据挖掘算法进行相应的改造,将其部署到云计算平台之上,那么无疑可以解决互联网大规模数据挖掘的难题。本论文首先从云计算平台的相关理论出发,分析了Google文件系统、分布式编程模型map-reduce、分布式数据存储系统BigTable以及目前应用非常广泛的开源云计算平台hadoop的框架结构;其次以逻辑回归算法和关联规则算法为代表,提出了改进过后的能够应用于云计算平台上的算法;最后将算法移植到hadoop平台上进行实验后发现算法耗费时间随着hadoop集群规模的增大而呈线性下降的。
其他文献
目前,我国再生橡胶行业普遍存在劳动强度大、耗能高、环境污染严重等问题,在天然橡胶资源日趋减少和能源相对紧缺的今天,废旧橡胶资源化的研究具有重要的现实意义。本文通过研究
在秘鲁霍扎(Huallza)水电站建设过程中,对于220 kV GIS断路器跳闸回路监视,业主要求在断路器处于分闸状态时,仍能得到监视.针对业主提出的要求,分析了跳闸回路监视功能在不同
近年来,浙江苕溪流域内茶叶种植面积迅速增加,大部分茶园分布在红壤丘陵坡地,种植过程中氮(N)、磷(P)营养随地表径流流失现象较为突出,加大了苕溪流域水体富营养化风险。因此
自豪是一种重要的社会适应性情绪,对个体行为有重要的影响。幼儿期是儿童自豪识别能力发展的重要阶段。本研究在系统综述以往与幼儿自豪识别相关的理论和实证研究的基础上,对幼
现代战场的复杂电磁环境要求武器系统需要具备更高的安全性和可靠性,而激光起爆技术由于采用光纤传输能量,具备很高的抗电磁干扰能力和起爆可靠性,是未来点火和起爆技术的重
中国基层民主自治制度是马克思关于人民自治思想和其制度理论的完美结合。村民自治制度属于中国基层民主自治制度当中的重要一环。她的存在使农村面貌发生了翻天覆地的变化,符
目的探讨多维度深度护理干预对脑梗死伴冠心病患者临床疗效、负性情绪和生活质量的影响。方法选取2016年5月至2017年5月我院收治的脑梗死伴冠心病患者80例为研究对象,按照密封
高速公路通信系统是高速公路智能交通信息系统重要组成部分,它为高速公路监控系统、收费系统提供信息传输保障,是高速公路现代化管理的支撑系统。无线传感器网络具有成本低、功
随着时代的不断发展,人们的生活质量水平也在不断提高,污水处理厂的出现能够有效改善人们的日常生活环境,为人们营造一个良好的居住环境。污水处理厂在运行过程中会应用大量
红霉素是由微生物发酵法产生的大环内酯类抗生素,抗菌谱较广。在红霉素产业链中,硫氰酸红霉素是一种重要的医药中间体。本文采用大孔吸附树脂进行提炼发酵液中的红霉素,结晶