论文部分内容阅读
近年来,数据分析市场的需求正快速发生变化。越来越多的企业和组织需要对大量数据进行分析,这些数据包括爬取的网页、搜索日志和点击流等。与此同时,需要存储和处理的数据正在急剧增长。越来越多数据产生与处理流程的电子化、自动化使数据呈现爆炸趋势。随着数据的快速增长,数据分析任务往往需要成百上千的机器同时运行才能完成。 众所周知,并行数据库因为高效性和稳定性一度成为数据分析的首选。随着基于成本的考虑和云计算概念的推动,将大规模数据分析任务从部署在并行数据库的高端服务器转移至更便宜的无共享体系结构的低端服务器集群上,成为当下海量数据分析的真正首选。HyDB基本思想就是结合数据库的高性能和MapReduce的容错性和扩展性,提供一个基于代价的高效的应对大规模数据分析任务的系统框架。 本文设计了完善的结合并行MapReduce和数据库的高效混合架构,实现了HyDB系统,通过对数据的存储模型和查询模型进行研究,提出了优化的数据存储和查询技术,设计了基于队列的作业调度算法,提出了针对简约查询的快速响应模式,并对数据加载、事务和容错的实现进行了讨论。同时,为了进一步提高查询效率,首次提出了混合模型下的基于代价的查询优化方案,研究了混合模型下的统计信息收集方法和代价计算公式,并针对混合架构的特点提出了基于动态规划的最优计划搜索算法,该算法基于数据的存储模型对各种不同类型的执行路径进行综合考虑,并根据代价模型寻找最优的执行方案。最后经过多方面的实验和分析,证明我们的系统具有很好的加载性能、查询性能和容错能力。 总之,本文实现了HyDB系统——集成MapReduce和数据库的高效混合架构,就大规模数据分析的一些关键问题进行了研究,对高效可靠的大规模数据分析技术进行了探索。