基于Hadoop平台的数据迁移系统的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhiyuanboxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种新兴互联网技术的发展,数据体量呈现出指数型增长。数据的不断累积,使得企业现有业务平台面临着性能不足、资源花费过多等问题,已无法较好的满足高性能、高并发的需求。而大数据平台存储容量巨大且支持大规模数据的复杂计算,能够对数据进行更深层次的价值分析,因此把一些存在价值的历史数据迁移到大数据平台十分有必要,不仅可以缓解现有业务平台的生产压力,还可以发掘新的业务方向。本文结合某世界前五百强通信企业的实际需求,设计实现了一个将数据从Teradata数据库迁移至Hadoop平台并自动存储归档的数据迁移系统。本系统针对结构化和非结构化数据的特征,设计实施了两种不同的迁移方案,即基于MapReduce的结构化数据迁移和基于FTP方式的非结构化数据迁移。与现有迁移工具相比,本系统能够完成一些特定需求,例如按业务逻辑清洗数据、回传部分数据等,并且只需在迁移任务开始前配置好相关参数,便能够自动实现数据抽取、数据清洗、数据类型转换、数据校验、数据加载、数据回传等一系列流程。最后根据业务逻辑和调度周期的不同,选择不同的数据格式,存储在Hadoop平台不同的层级。经过测试,本系统各个功能满足预期设计目标,具有较好的迁移性能,验证了迁移方案的可行性。同时在某大型通信企业部署本数据迁移系统,实际迁移效果较为满意,极大缓解了原业务系统的生产压力,增强了企业对大规模数据的分析处理能力,体现出本文对数据迁移的研究具有一定价值。
其他文献
在生物教学中.教师的语言直接影响学生对生物的学习兴趣、学习热情。素质教育下的新型教师在学生获得知识的同时.还应让他们从中得到一种美的情感熏陶和价值享受.陶冶他们的情操
“书中自有黄金屋”“书读百遍,其义自见”“读书破万卷.下笔如有神”,这些至理名言都展示出一个道理.那就是要博览群书,集思广益。作为教师,我们也应该为此而深思.究竟该怎样去指引
国家教育部规定中小学生每天在校体育活动时阉不低于1小时.必须保证学校的体育课及两操活动.而小学生特别喜欢体育运动.但却不一定喜欢体育课。只有实施快乐体育。从学生的需求
农村学前教育是当前我国学前教育发展的难点,是实现城乡学前教育均衡发展、促进学前教育公平的重要一环。近十年,随着党和国家的重视和支持,学前教育“入园难、入园贵”等问
随着全球经济的不断发展和人类文明的不断进步,人们对各种资源的需求和利用都在提升。电力作为现代不可或缺的能源动力,直接关系人们生产生活的质量和水平。针对传统的三大产
随着电力系统的快速发展,电力行业的综合实力显著增强,配电线路作为电力输送系统的终端,是其重要的组成部分,当前在10kV配电线路运行的过程中还存在诸多问题,比如配电线路长、负荷
研究了四氢呋喃/醇化合物二元极性调节体系对用负离子聚合法制备的、用于火箭推进剂黏合剂的端羟基聚丁二烯橡胶微观结构的影响.结果表明,四氢呋喃对其微观结构的影响大于醇
采用动态硫化技术制备了三元乙丙橡胶(EPDM)/聚酰胺(PA)热塑性弹性体,研究了增容剂种类及用量、硫化体系及其用量、加料顺序、PA用量对其性能的影响,用扫描电镜分析了其相态
课堂是学生获取知识的主要途径.是教学的主要阵地.如何提高课堂教学历来是广大教师所普遍关注的重要话题。数学具有较强的抽象性.这对于刚刚步人学校的小学生来说具有一定的难度
随着我国经济的突飞猛进,人民的生活水平日益提高,各类汽车也逐步进入寻常百姓家,星如棋布的成品油零售网络终端——加油站也成为社会基础设施的组成部分。近年来,由于零售成