基于Map Reduce的数据挖掘算法在全国人口系统中的应用

来源 :首都经济贸易大学 | 被引量 : 11次 | 上传用户:linyibaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据IDC报告的估计,到2011年全球存储的电子数据总量将达到1.8ZB,怎样从这茫茫的数据海洋中得到有用的信息,是数据挖掘领域的一个常见的研究课题。对于大规模数据的处理,传统的数据挖掘算法,在这样数据异构、海量、分布的环境中,往往在计算能力上表现出力不从心,计算速度过慢甚至无法运行,从而成为许多挖掘算法的致命伤。云计算的出现,为大规模数据的分析和存储带来了曙光,利用云计算技术,将传统的数据挖掘算法并行化,凭借云计算平台的存储能力,解决大规模数据的处理需求与计算能力和存储能力之间的矛盾。这样,如何利用开源的云计算平台解决现有挖掘算法的瓶颈问题,重点在于如何实现挖掘算法的并行化。本文在国家自然科学基金资助项目(编号:60773005)的支持下,对海量数据处理和计算进行了深入的研究,以人口数据为范例,进行可行的并行数据挖掘算法研究。首先,本文从现在最受关注的云计算框架Hadoop框架入手,从分布式文件系统HDFS和分布式计算框架MapReduce两个角度进行了介绍,尤其对MapReduce计算框架运行机理进行了阐述,为后来的算法设计提供基础。接着,针对我国人口系统中存在的海量数据挖掘的需求,依托Hadoop的分布式框架,提出了基于MapReduce的并行数据挖掘算法。通过对K-means算法、朴素贝叶斯算法、FP-Growth算法的算法原理、瓶颈问题进行分析,提出了对这三个算法的MapReduce化的方法,并对并行K-means算法进行实现。最后,通过将改进后的K-means算法应用于人口数据中,分析学历与就业之间关系,以期对教育政策和就业政策的制定,起到积极意义。
其他文献
现实环境中的测量要求从噪声源中提取微弱信号.使在差分测量中也经常会出现很高的共模电压.解决这个问题的常用方法是使用运算放大器或仪表放大器,然后进行某种类型的低通滤
为深入理解冷却塔风振响应特征及其影响因素,通过动力计算获取风振响应并分析各内力的风振特征,尤其关注背景和共振分量σB,σR在总脉动响应σ中的贡献;另外,调整阻尼比ζ、
体育用品业是体育产业的重要组成部分,为了发展体育产业,世界各国都非常重视并积极采取措施抢占市场,努力使自己在未来的国际竞争中占据一席之地。由于中国是世界上最大的体育用
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
随着功率密度和输出功率要求的不断提高,汽车市场中汽车功率调节设计面临着更加严峻的挑战.多相DC-DC转换器架构在许多方面简化了汽车设计.Intersil 推出的ISL78220正是专门
我们设计研制了一个基于Al GaN/GaN HEMT大功率放大器的混合集成电路.这个电路包含了1个10×120μm的HEMT晶体管,以及输入和输出匹配电路.在偏置条件为Vds=40 V,Ids=0.26 A时
患者男,46岁,干部。胸闷,反复发作心动过速五年,突然心悸发作,伴有头迷,呼吸困难,发病时用毒毛旋花素效果较好。检查:一般状况尚好,呼吸稍急促,血压96/60mmHg心率136次/分,