海量数据分析处理方法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:oliveloveyou6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,很多领域对信息系统的建设处在转型阶段。以金融领域为例,后续IT建设的重心逐步从建设“核心业务交易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数据分析处理需求强烈。MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个Map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。并行数据库作为一种高性能的数据库系统,是并行技术和数据库技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、无共享的三种架构方式。本文在分析Mapreduce和并行数据库的基础上,提出了一种并发处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品进行了详细的测试。首先,我们分析了MapReduce和并行数据库对海量数据处理的并行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的设计打下了基础。接着我们提出了三种MapReduce和SQL结合的方式,分别是MapReduce引擎增加SQL层、MapReduce调度SQL语句、SQL语句调用MapReduce,通过三种结合方式的比较,我们认为SQL语句调用MapReduce的方法是最好的一种。然后,我们提出了将并行数据库和MapReduce结合的大概设计框架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的具体执行。接着,我们通过MapReduce的自定义函数对SQL进行了扩展,提出了将MapReduce嵌入到SQL语句里面的方式和具体的执行方式。接着,我们描述了数据分布策略和镜像处理的概要情况。最后,我们对当前比较优秀的并行数据库Greenplum进行了详细的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量数据处理的性能结果。
其他文献
标识是通向品牌的入口。便于记忆及快速识别的可视品牌标识,可以促进人们对品牌的感知和认同。最好的标识在提升品牌。创造和建设一个品牌,设计扮演着至关重要的角色。设计使
电能需求的增加和环保要求的压力促进了分布式能源的发展。据文献报道,2010年之前全球累计新增发电容量的25%到30%为分布式发电。风电是无需燃料费用的可再生绿色分布式能源,
当前海量异质、快速增长的网络资源带来了“数据过剩”和“知识贫乏”的矛盾,增大了人们及时获取有用知识的难度。本文以网络环境下的异质数据源为研究对象,探寻各种数据中知
迄今为止,对儒家思想的呈现与解构一直是华裔美国文学中的一个核心命题。本论文借鉴后现代理论中的差异政治观,结合斯图亚特·霍尔关于文化身份生成性的后殖民理论,探讨华裔
视频中的文本为描述视频内容提供了十分有用的信息,对于构建基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别这些文字对于图像理解、视频内容分析、基于内容的
<正>经常被人问及这样一个问题:"为什么喜欢读侦探小说?"实际上,我很难一下子给出一个非常令人满意的回答,尽管自己确实读过不少侦探小说。同样,当我把这个问题提给我的朋友
《汉书·王莽传》记载了王莽征高句丽兵伐胡而引发了新莽军队与高句丽之间的冲突。高句丽兵杀死辽西大尹田谭,严尤诱杀高句丽侯驺。学界对此段史料的理解不同。最新看法认为
目的探讨高分辨磁共振对椎基底动脉夹层动脉瘤的临床诊断价值。方法选取我院2012年3月至2014年3月期间收治的80例疑似椎基底动脉夹层动脉瘤患者为研究对象,对所有患者行高分
一、立题依据和研究目的随着医疗服务改革的发展,“以人为本”的管理理念与服务理念逐步确立,在这个过程中,医生工作负荷问题越来越受到关注。同时病人满意度是评价医院医疗
目的分析对小儿支气管哮喘患儿实施压缩雾化吸入过程中的护理方法和效果。方法收集我院2012年7月至2013年7月期间经压缩雾化吸入治疗的小儿支气管哮喘患儿96例作为研究对象并