结合MapReduce与数据库的大规模数据分析关键技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:lmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据分析市场的需求正快速发生变化。越来越多的企业和组织需要对大量数据进行分析,这些数据包括爬取的网页、搜索日志和点击流等。与此同时,需要存储和处理的数据正在急剧增长。越来越多数据产生与处理流程的电子化、自动化使数据呈现爆炸趋势。随着数据的快速增长,数据分析任务往往需要成百上千的机器同时运行才能完成。  众所周知,并行数据库因为高效性和稳定性一度成为数据分析的首选。随着基于成本的考虑和云计算概念的推动,将大规模数据分析任务从部署在并行数据库的高端服务器转移至更便宜的无共享体系结构的低端服务器集群上,成为当下海量数据分析的真正首选。HyDB基本思想就是结合数据库的高性能和MapReduce的容错性和扩展性,提供一个基于代价的高效的应对大规模数据分析任务的系统框架。  本文设计了完善的结合并行MapReduce和数据库的高效混合架构,实现了HyDB系统,通过对数据的存储模型和查询模型进行研究,提出了优化的数据存储和查询技术,设计了基于队列的作业调度算法,提出了针对简约查询的快速响应模式,并对数据加载、事务和容错的实现进行了讨论。同时,为了进一步提高查询效率,首次提出了混合模型下的基于代价的查询优化方案,研究了混合模型下的统计信息收集方法和代价计算公式,并针对混合架构的特点提出了基于动态规划的最优计划搜索算法,该算法基于数据的存储模型对各种不同类型的执行路径进行综合考虑,并根据代价模型寻找最优的执行方案。最后经过多方面的实验和分析,证明我们的系统具有很好的加载性能、查询性能和容错能力。  总之,本文实现了HyDB系统——集成MapReduce和数据库的高效混合架构,就大规模数据分析的一些关键问题进行了研究,对高效可靠的大规模数据分析技术进行了探索。
其他文献
随着Internet的不断发展,Internet为用户提供越来越多的信息和服务。在目前的网络和电子商务环境下,推荐系统得到了广泛的应用,相似度计算作为推荐系统中重要并且基础的技术,在协
网络中每天都有故障发生。网络拓扑的频繁变化会导致路由重计算被频繁执行,使得路由表中的一些条目被不断的删除、加入、删除、加入…,这种现象被定义为路由振荡。由于各种实
最小加权顶点覆盖(MWVC)问题是图论中一个著名的组合优化问题,它有着广泛的实际应用,例如网络流、电路设计、运输和电信等。MWVC问题中的每一个顶点都有一个正权值,它的目标是在
XML文档具有两个显著的特点,其一:自描述性,存在大量的语义标签描述标签内的文本。这使得XML被广泛的用作描述服务或者数据对象、作为数据交换格式、标注非结构化文档(web页面,纯
随着互联网的发展,网络上出现了越来越多的主观性文本,这些文本包含的观点不仅对潜在用户的行为产生了影响,同时也影响了相关的决策。对主观信息的分析与提取,已是自然语言处理等
普适计算环境的特点是以人为本,旨在为用户提供高效精确的、无处不在的个性化服务。为了达到这一目标,就需要对海量的、离散的原子事件进行自动智能分析,提取用户感兴趣的、可以
随着无线传感网络技术的发展,其应用范围日趋广泛。而协议作为无线传感网络通信的基础,其重要性显而易见,但由于无线传感网络运行环境的复杂性,协议的正确性很难得到保证。通常的
现今互联网已经成为了信息的海洋,每天有上亿张新页面发布到互联网中,虽然其中大型的门户网站汇集了大量的信息,但是国内数以万计的中小型网站的信息量总和确实远远高于门户网站
因特网的繁荣给世界带来了重大的改变。但随着越来越多的Web服务程序和网站的开发,Web的漏洞如同雨后春笋般地出现。在最近几年,网络上出现了一种新的攻击类型:客户端攻击。客户
对软件系统源码进行缺陷静态检测所面临的最大的现实困难之一是缺乏相应的缺陷检测规则。尽管对软件代码进行人工地分析和理解能够获得反映程序安全本质的深层次的缺陷检测规