基于MapReduce并行处理框架的大数据处理系统的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：merry_leaf

【摘要】

：

近年来,随着科技的进步与发展,数据采集终端数量的上升,人们不可避免的会在日常工作与生活当中面对数量庞大、种类繁多的数据信息。人们如何处理与利用这些海量数据也决定了

【作者】

：

李志斌

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

大数据处理 Hadoop平台 MapReduce数据处理模型 PageRank算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着科技的进步与发展,数据采集终端数量的上升,人们不可避免的会在日常工作与生活当中面对数量庞大、种类繁多的数据信息。人们如何处理与利用这些海量数据也决定了人们在生产生活中的决策行为将不再是基于过去的经验与直觉,而是转变为通过对相应数据进行数据处理,从而得到在海量数据指导下的策略选择。大数据处理系统作为大数据技术中的重要研究内容,通过不同数据架构以及数据处理算法来满足不同业务类型的大数据存储以及处理要求,具有重要的研究意义。现有成果从不同方面对大数据的存储以及处理提出了不同的解决方法,但仍有不足。例如,大数据的数据量虽然巨大,但是针对某一产业或某一方面的大数据具有一定的数据特征,如今的数据处理系统并未充分利用这些特征,也无法利用大数据之间的特征关系进行数据处理,难以优化整个大数据处理系统。1.本文在对大数据处理系统的关键技术进行构想与研究的基础上,首先采用Hadoop架构来搭建系统实验平台。通过操作Map Reduce模型预留出的Map映射函数接口完成针对数据采集终端数据的粗处理过程,再根据Map函数的输出结果调用相应的Reduce函数完成大数据的规约化处理,从而挖掘出相应海量数据的数据特征。同时,利用Map Reduce函数优化了大数据处理系统的整体存储性能,使得大数据信息的存储变得更加的合理、可靠。2.针对不同类型的大数据信息各自具有独特的数据特征的特点,本文将传统的基于内存的Page Rank算法引入到基于Map Reduce数据处理模型的大数据处理系统当中。针对数据处理中对于图数据以及高维数据的处理往往涉及多次迭代以及不同计算机之间的大量网络通信的缺点,通过合理划分子图,保证数据的迭代发生在图数据以及多维数据被合理划分的子图内;以及合理确定内部节点和外部节点来避免不同计算机之间的数据通信发生在整个大数据整体上,从而降低网络通信所需要的带宽。同时,将基于内存的Page Rank算法运用到多维数据和图数据的子图数据的多次迭代当中,从而保证了整个大数据处理系统既有普通Page Rank算法的效率,也能够异步的扩展在不同系统的计算机实验平台上。3.本文采用两个大规模高维数据以及图数据集,分别是Live Journal数据集以及Face Book数据集。Live Journal数据集包含4847571个数据节点,68993773个数据边,Live Journal数据集来源于网站www.livejournal.com。Face Book数据集包含957359个数据节点和161933115条数据边。实验所用计算机均安装Ubuntu9.04,32位操作系统以及Java1.6和Hadoop0.20.2进行实验。实验结果表明,本文提出的大数据处理系统可以提高数据处理速度,降低系统所需通信带宽。

其他文献

耕地制约和政策局限:水利工程移民安置问题研究——基于江苏省的数据分析

受耕地制约和"低补偿、重安置"水利工程征地补偿和移民安置政策局限的影响,江苏省水利工程移民现行"社会保障安置",既不能保障"生产生活恢复"水利工程移民安置政策目标的实现

期刊

土地征收移民安置三元保障机制水利工程江苏省

肺癌和食管癌患者外周血淋巴细胞亚群变化的分析研究

背景：肺癌的发生、发展、转移及预后与机体免疫功能及肿瘤的免疫逃逸机制密切相关。目前临床常规放化疗对肺癌中晚期患者的疗效低、副作用大，不能有效提高患者的生存率。近年来

学位

肺癌淋巴细胞亚群流式细胞术表皮生长因子受体食管癌细胞免疫体液免疫

磁性氧化石墨烯负载砂子对水中As(v)的动态吸附研究

砷是一种众所周知的有毒物质，由于含砷工业废水的排放、矿类开采等人类活动的频繁，使得有些地区的地下水中砷的含量增高，加快了砷在环境中的迁移和转化，造成了砷在环境中的积累，引

学位

五价砷吸附柱吸附竞争离子穿透曲线

分布式任务自主分配和协同控制

近年来,随着多Agent技术的迅速发展,Agent自主决策能力在不断增强,为了弥补多Agent的集中式体系结构缺点,多Agent分布式的体系结构是一个重要发展方向,而且将分布式体系结构

学位

多Agent任务分配协同控制博弈论马尔科夫决策动态环境

P2技术在新闻节目制作中的应用

简要介绍了P2摄像机、P2放录像机、P2卡等新技术在高清新闻节目制作中的实际应用;P2系列设备相较于传统标清节目制作设备的优势及需要改进的方面;高清新闻节目网络化制作针对

期刊

P2摄像机P2放录像机P2卡网络化节目制作流程

基于压缩感知理论的高光谱图像重建和超分辨成像技术研究

光谱图像由于可以同时提供被观测目标的空间信息和光谱信息，研究人员可定性定量地对被观测目标进行物理分析和识别，从而在对地观测等领域得到广泛应用。随着人们对信息量需求的

学位

压缩感知图像重建梯度投影匹配追踪超分辨重建

基于NDVI技术的白琵鹭繁殖期生境选择研究

本研究课题通过为期两年(2011-2012)在黑龙江省七星河国家级自然保护区的实地调查,使用定点观察、GPS卫星定位、样方测量法、因子测量法、主成分分析、正态分布分析、NDVI计

学位

白琵鹭生境选择主成分分析正态分布NDVI七星河国家级自然保护区

民国时期图书馆法规研究

民国时期处于中国社会的大变革时期，战火纷繁，政局变幻，国力羸弱。在这样复杂的条件下，中国图书馆事业却发展迅速，可以说与民国时期颁布的各项图书馆法规不无密切关系。本文希望系

学位

民国时期图书馆法规业务管理理念行政管理理念评价

广电SDH传输网上常见的业务类型与电路配置技巧

本文介绍了在广电系统SDH传输网上一些常见的业务类型,如点到点、环型、双向、单向、广播等各种与其他系统相同和不相同的业务类型,并介绍了本人根据实际工作经验总结出的一

期刊

SDH环型网业务类型传输网电路配置电路调度

民国时期福建对外医药交流初探

福建地处东南沿海，对外交流由来已久。民国时期的中外医药交流，对福建近代的医疗卫生体系初步的建立和中医药界的变革和发展均起了重要作用。文章通过查阅文献、史料考证、

学位

民国医学史福建对外交流史

基于MapReduce并行处理框架的大数据处理系统的研究

与本文相关的学术论文