论文部分内容阅读
在大数据时代,数据已经悄然地影响着我们的生活、工作和学习,诸如:社交网络、移动客户端的应用、可穿戴设备等所产生的数据,其产生规模向TB量级甚至PB量级的趋势递增。云计算技术,作为一种新型综合技术,为信息时代发展提供无限创造价值的空间。目前,政府、企业的软件和数据向云计算环境的迁移、部署和运行也属当前国家信息化建设的重大需求之一。本文通过结合云计算和大数据相关技术,研究面向云环境的大数据迁移和部署。首先,本文在绪论部分主要阐述云计算、大数据以及数据迁移的研究和发展现状。接着在本文的第二章中深入分析云计算、大数据相关的基本理论和关键技术。在本文的第三章中详述基于Hadoop数据迁移和部署的架构设计,并深入分析数据迁移中数据划分模块。通过在第三章中对基于Hadoop数据迁移过程中关键问题的深入分析,如:split-by取值、num-mappers取值等,以此为线索在本文的第四章设计了具体测试实验用例,并进行反复多次的实验。本文的第五章深入分析实验结果并进行相应的总结,通过观察分析实验结果,一方面发现在数据迁移过程中map任务数(num-mappers值)并不是越大越好,另一方面发现不同数据类型的数据划分对数据迁移效率和性能也会造成一定的影响。最后,对本文进行总结并对今后的工作进行规划。总之,本文主要聚焦于传统关系型数据库(RDBMS)与云环境之间数据迁移的性能问题。本文数据迁移模块设计主要是基于Hadoop云环境平台,并针对数据迁移工具Sqoop的性能进行多维度的测试。通过大量实验的测试和验证,基于Hadoop云环境平台的数据迁移在某些特性上的研究是值得深入的。本文希望通过充分利用传统的数据技术和新型的大数据处理技术,提供数据分析和处理更优性能和更好效率。