论文部分内容阅读
近半个世纪以来,在摩尔定律的支配下,信息技术呈现出了前所未有的繁荣景象,互联网技术也不断改革创新。根据IDC预测,当前形势下每年产生的数据量高达8ZB,到2020年这个数字将逐渐增加至40ZB,这预示着大数据时代已经到来。随着大数据对工业企业各种限制的不断突破,数据将会在工业产业链甚至跨产业链间,创造出高于现在数倍的产值。McKinsey曾对交通业、金融业等七大领域进行预测,数据每年创造的经济价值将高达四万亿美元,甚至有专家预测,当数据实现开放流通并逐渐成为生产要素后,人类社会将真正迎来工业互联网时代。通常情况下,工业企业的信息数据系统会包含多个不同的业务系统,并且每个业务系统也都包含有各自的在线系统、归档系统和备份系统。企业出于对成本的考虑,存储系统会把在线业务平台的数据迁移到后端的大数据平台,但是数据迁移的过程极为复杂,需要解决的问题也较多。在上述诸多问题中,本文主要研究其中的两个问题,首先将在线数据迁移至大数据平台的过程中,数据的迁移效率有待提高;其次,数据迁移至大数据平台后,平台的各个节点之间数据的动态迁移的系统开销有待降低。根据上述两个问题,我们分别提出基于任务调度机制的数据迁移方法和基于迁移开销敏感的迁移方法对问题展开研究:具体内容如下:⑴本文首先对MapReduce分布式架构、HBase数据库、HDFS分布式文件系统、Key/Value存储系统等关键技术进行详细介绍,并对PSO算法和ABC算法的基本原理进行了深入研究。⑵针对将在线数据数据迁移到大数据平台的需求,本文提出一种基于任务调度机制的数据迁移方法。为了对上述方法进行实验分析,我们使用了Hadoop架构进行实现,并通过与Hadoop默认的FIFO任务调度机制进行比较,验证方法的有效性。⑶对于分布式存储系统而言,数据迁移是实现不同节点之间动态扩展与弹性负载均衡的关键技术。如何降低迁移开销是提供商需着力解决的问题。现有方法大多是针对非虚拟化环境下的数据迁移问题,对于大数据环境下的分布式存储系统而言,这些方法往往并不适用。为应对上述问题,我们将数据迁移问题纳入负载均衡场景,并利用基于面积的迁移开销模型,提出一种以降低系统开销的数据迁移方法。⑷根据数据迁移策略的实现过程,我们利用Hadoop平台对数据迁移方法的有效性进行数据测试,并通过与其他方法或者系统自带方案的对比,对方法进行评价分析。