论文部分内容阅读
大数据分析是大数据应用的主要方向,传统的RDBMS的由于扩展性差,大数据下IO压力大,数据分析效率低下等问题,已经很难适应海量数据管理的需求。将HBase应用到业务系统做大数据分析与数据挖掘已经成为大数据应用的一个热点,目前多数的业务系统使用关系型数据库存储数据,为了方便数据处理,通常需要将数据从关系型数据库迁移进HBase。目前,将RDBMS数据导入到HBase面临四大挑战。第一,RDBMS和HBase的表结构不同;第二,根据数据分析的目的需要在HBase中数据保留某种关系;第三,数据迁移性能问题;第四,HBase表结构设计的问题。 本文探索解决将业务系统中RDBMS数据导入到HBase面临挑战的方法,提出了一种从RDBMS到HBase的数据迁移方法,该方法包括一种新的带关系的HBase表模型、关系表和HBase表之间的转换模型、HBase表的RowKey设计和基于MapReduce的数据迁移算法实现。 本文主要工作包括:(1)分析和总结了将RDBMS数据迁移到HBase面临的挑战,并指出现有相关现状的不足,为探索解决方法指明了方向;(2)分析HBase的数据模型,结合RDBMS数据数据模型和数据分析时的需要,给出了一种带关系的HBse数据模型;(3)提出了将RDBMS数据迁移到HBase时的数据迁移方案,方案中包含数据提取、关系表与HBase表的结构转换、基于MapReduce的数据迁移算法、HBase的RowKey设计;(4)基于品高云平台、Hadoop集群实践了本文提出的数据方案,并验证了该方案的可行性和数据分析时的高效性。 本文对数据从RDBMS迁移到HBase的研究,提出了为了数据分析的目的,将关系型数据迁移进HBase同时保留数据关系,给出了关系表与HBase表的转换模型并进行MapReduce的实现。本文提出的数据迁移方案可作为异构数据库间数据迁移的参考材料,对使用HBase管理传统的业务数据具有一定的借鉴意义。