从RDBMS到HBase的数据迁移研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:huangshjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据分析是大数据应用的主要方向,传统的RDBMS的由于扩展性差,大数据下IO压力大,数据分析效率低下等问题,已经很难适应海量数据管理的需求。将HBase应用到业务系统做大数据分析与数据挖掘已经成为大数据应用的一个热点,目前多数的业务系统使用关系型数据库存储数据,为了方便数据处理,通常需要将数据从关系型数据库迁移进HBase。目前,将RDBMS数据导入到HBase面临四大挑战。第一,RDBMS和HBase的表结构不同;第二,根据数据分析的目的需要在HBase中数据保留某种关系;第三,数据迁移性能问题;第四,HBase表结构设计的问题。  本文探索解决将业务系统中RDBMS数据导入到HBase面临挑战的方法,提出了一种从RDBMS到HBase的数据迁移方法,该方法包括一种新的带关系的HBase表模型、关系表和HBase表之间的转换模型、HBase表的RowKey设计和基于MapReduce的数据迁移算法实现。  本文主要工作包括:(1)分析和总结了将RDBMS数据迁移到HBase面临的挑战,并指出现有相关现状的不足,为探索解决方法指明了方向;(2)分析HBase的数据模型,结合RDBMS数据数据模型和数据分析时的需要,给出了一种带关系的HBse数据模型;(3)提出了将RDBMS数据迁移到HBase时的数据迁移方案,方案中包含数据提取、关系表与HBase表的结构转换、基于MapReduce的数据迁移算法、HBase的RowKey设计;(4)基于品高云平台、Hadoop集群实践了本文提出的数据方案,并验证了该方案的可行性和数据分析时的高效性。  本文对数据从RDBMS迁移到HBase的研究,提出了为了数据分析的目的,将关系型数据迁移进HBase同时保留数据关系,给出了关系表与HBase表的转换模型并进行MapReduce的实现。本文提出的数据迁移方案可作为异构数据库间数据迁移的参考材料,对使用HBase管理传统的业务数据具有一定的借鉴意义。
其他文献
随着Internet技术的飞速发展和电子商务的普及应用,传统的Web开发普遍存在着应用扩展和维护方面的不足,因此,如何组织应用程序以实现简单高效的应用程序编写、维护和扩展,是当前W
雷达装备稳定性是雷达系统整体性能的重要性能之一。它直接影响雷达系统的安全性和雷达系统的指向精度。为实现对稳定性的快速准确分析与判断,有必要开发雷达系统稳定性可视化
学位
病历是病人病情、诊断、和处理方法的记录,是医护人员进行医疗活动的信息传递媒介和执行依据,是临床教学和科研的主要信息源。随着医院信息化的发展,病历逐步从纸张病历过渡到电
随着互连网络的广泛应用和高速发展,各种基于网络的Web服务如雨后春笋般出现了。Web服务的急剧增多,用户面对表现形式和复杂性都可能不相同的服务,如何正确、高效地从如此庞大的
目前,医院信息系统已取得较大发展,但由于成本和系统异构等原因,医院各医疗子系统仍存在信息孤岛问题,各系统间信息不能很好地集成共享、交流。随着计算机技术和网络的飞速发展,人
随着计算机网络的快速发展,信息安全变得越来越重要。为了保证信息系统的安全性,密码技术被应用于信息系统中。在密码技术中,需要众多的算法和协议,它们都需要敌手不知道、也无法
学位
随着计算机应用的越来越广泛、越来越深入,人们对计算机性能的要求也越来越高,而一般的计算机单机不具备处理大量数据及数据流量的能力,实际证明如果单靠提高计算机硬件的性能,那
随着互联网和多媒体技术的飞速发展,数字音视频、图书等在网络中比较容易被广泛分发。在用户得到方便的同时,非法分发极大的损害了内容提供商的利益。DRM(Digital Rights Manag
传统工作流管理系统把一个项目的各个操作环节组织在一起进行管理,提高了企业的运作效率,它有流程相对固定、任务的操作者相对固定的特点。进入二十一世纪,随着工作流技术的深入
本论文着重探讨了基于移动Agent的机场信息管理系统安全问题。从分析移动Agent技术及其安全问题入手,本文在论述了移动Agent系统所面临的各种安全性问题之后,详细介绍了现有的
学位