基于Map Reduce的数据挖掘算法在全国人口系统中的应用

来源 :首都经济贸易大学 | 被引量 : 11次 | 上传用户：linyibaby

【摘要】

：

根据IDC报告的估计,到2011年全球存储的电子数据总量将达到1.8ZB,怎样从这茫茫的数据海洋中得到有用的信息,是数据挖掘领域的一个常见的研究课题。对于大规模数据的处理,传统

【作者】

：

刘娜

【机构】

：

首都经济贸易大学

【出处】

：

首都经济贸易大学

【发表日期】

：

2011年01期

【关键词】

：

数据挖掘人口系统分布式计算 MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

根据IDC报告的估计,到2011年全球存储的电子数据总量将达到1.8ZB,怎样从这茫茫的数据海洋中得到有用的信息,是数据挖掘领域的一个常见的研究课题。对于大规模数据的处理,传统的数据挖掘算法,在这样数据异构、海量、分布的环境中,往往在计算能力上表现出力不从心,计算速度过慢甚至无法运行,从而成为许多挖掘算法的致命伤。云计算的出现,为大规模数据的分析和存储带来了曙光,利用云计算技术,将传统的数据挖掘算法并行化,凭借云计算平台的存储能力,解决大规模数据的处理需求与计算能力和存储能力之间的矛盾。这样,如何利用开源的云计算平台解决现有挖掘算法的瓶颈问题,重点在于如何实现挖掘算法的并行化。本文在国家自然科学基金资助项目(编号：60773005)的支持下,对海量数据处理和计算进行了深入的研究,以人口数据为范例,进行可行的并行数据挖掘算法研究。首先,本文从现在最受关注的云计算框架Hadoop框架入手,从分布式文件系统HDFS和分布式计算框架MapReduce两个角度进行了介绍,尤其对MapReduce计算框架运行机理进行了阐述,为后来的算法设计提供基础。接着,针对我国人口系统中存在的海量数据挖掘的需求,依托Hadoop的分布式框架,提出了基于MapReduce的并行数据挖掘算法。通过对K-means算法、朴素贝叶斯算法、FP-Growth算法的算法原理、瓶颈问题进行分析,提出了对这三个算法的MapReduce化的方法,并对并行K-means算法进行实现。最后,通过将改进后的K-means算法应用于人口数据中,分析学历与就业之间关系,以期对教育政策和就业政策的制定,起到积极意义。

其他文献

提供精密ADC接口的简单电路

现实环境中的测量要求从噪声源中提取微弱信号.使在差分测量中也经常会出现很高的共模电压.解决这个问题的常用方法是使用运算放大器或仪表放大器,然后进行某种类型的低通滤

期刊

精密接口运算放大器仪表放大器噪声电平现实环境微弱信号共模电压低通滤波差分测量测量要求噪声源低背景提取方法

冷却塔风振效应特征及影响因素分析

为深入理解冷却塔风振响应特征及其影响因素,通过动力计算获取风振响应并分析各内力的风振特征,尤其关注背景和共振分量σB,σR在总脉动响应σ中的贡献;另外,调整阻尼比ζ、

期刊

冷却塔风振效应影响因素阻尼比风速取值子午向相关性

发展民族品牌扶植大型企业--中国宝玉石协会将开展向社会、向消费者推荐珠宝首饰品牌活动

期刊

民族品牌型企业中国宝玉石协会消费者珠宝首饰

我国体育服用品业国际竞争力研究

体育用品业是体育产业的重要组成部分，为了发展体育产业，世界各国都非常重视并积极采取措施抢占市场，努力使自己在未来的国际竞争中占据一席之地。由于中国是世界上最大的体育用

学位

体育用品企业体育服装市场营销国际竞争力产业经济学

纺织器材创新与管理新理念

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

Modeling of solids segregation in circulating fluidized bed boilers

期刊

segregationmodelterminal velocitycirculating ftuidized bed (CFB)

编软件破解DVD密码非法获利少年黑客惹来官司

期刊

软件破解密码非法获利少年黑客

汽车电源转换面临的挑战

随着功率密度和输出功率要求的不断提高,汽车市场中汽车功率调节设计面临着更加严峻的挑战.多相DC-DC转换器架构在许多方面简化了汽车设计.Intersil 推出的ISL78220正是专门

期刊

DC-DC转换器功率调节多相升压控制器混合电动车PWM转换

基于AlGaN/GaN HEMT的C波段功率放大器混合集成电路的设计

我们设计研制了一个基于Al GaN/GaN HEMT大功率放大器的混合集成电路.这个电路包含了1个10×120μm的HEMT晶体管,以及输入和输出匹配电路.在偏置条件为Vds=40 V,Ids=0.26 A时

期刊

微波功率放大器AlGaN/GaN HEMT混合集成电路(MIC)

阵发性房室连接区心动过速伴室内差异性传导

患者男,46岁,干部。胸闷,反复发作心动过速五年,突然心悸发作,伴有头迷,呼吸困难,发病时用毒毛旋花素效果较好。检查:一般状况尚好,呼吸稍急促,血压96/60mmHg心率136次/分,

期刊

室内差异性传导心动过速连接区心律不齐毒毛眼底检查视神经乳头呼吸困难旋花发性

基于Map Reduce的数据挖掘算法在全国人口系统中的应用

与本文相关的学术论文