基于Hadoop与RDBMS的海量数据交换工具的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：mmxxmm333

【摘要】

：

随着计算机科学技术的飞速发展，网络在人们的生活中扮演了越来越重要的作用，各种新兴的互联网应用遍地开花，人们在享受互联网为生活带来的便利的同时，也为互联网创造了一份价值，就

【作者】

：

佘影

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年期

【关键词】

：

Hadoop系统 RDBMS系统数据交换工具性能测试

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机科学技术的飞速发展，网络在人们的生活中扮演了越来越重要的作用，各种新兴的互联网应用遍地开花，人们在享受互联网为生活带来的便利的同时，也为互联网创造了一份价值，就是数据。数据是企业的宝贵的财富，通过数据挖掘等科学技术，我们可以发掘出用户的消费习惯，用户的喜好等信息，从而使用户产生更大的价值。例如移动行业的增值业务，互联网商城的协同推荐等等。利用数据可以创造的价值实在太多了，然而随着数据规模的无限增大，单个计算机的计算能力开始变得无能为力。据IDC统计，2011年全球数据量将达1.8ZB。面对如此规模的“大数据”，企业们纷纷投向分布式计算。近年来许多分布式计算的框架被提了出来，而Hadoop就是其中最大的赢家。Hadoop作为一个开源的软件平台使得编写和运行用于处理海量数据的应用程序更加容易。然而有了数据，有了处理数据的平台，我们还是不能从海量数据中提取出隐藏的有价值的信息。这是因为在很多的企业中，大量有用的信息被锁在独立分散的数据库中。如果Hadoop不能够读取到这些数据，那么Hadoop功能再强大也没有实际的价值。　　基于Hadoop与RDBMS的数据交换的需求被各个应用Hadoop做数据分析的企业所提了出来。基于此，本文以基于Hadoop与RDBMS的海量数据交换工具的研究与实现为题展开讨论。　　首先，本文将对已有的数据交换工具进行研究。在本文之前，使用最广泛的两种数据交换的方式是通过Hadoop自带的DBInputFormat/DBOutputFormat以及Cloudera开发的Sqoop来完成的，本文将从这两种数据交换工具的算法实现的角度出发对其进行详尽的分析。同时，为了帮助读者更好地理解算法的流程，我们会深入地介绍Hadoop MapReduce的实现细节。通过研究其实现原理，进而推断出其性能的优势或不足，并结合我们对两种数据交换工具实际的性能测试来证实我们的推断的正确性。　　其次，本文中实现了一种基于Hadoop与RDBMS的数据交换工具。我们采用了在海量数据交换的场景下，性能优秀的类似于Sqoop的算法来实现数据交换。同时，我们通过对Sqoop的分析，针对Sqoop的诸多不足之处进行了优化，例如，增加Java API接口，以方便其他系统的集成，另外对序列化/反序列化的方式进行改进，使其更加符合我们的需求。　　最后，我们会将整个数据交换工具集成到BC-PDM现有的系统中。我们会介绍BC-PDM系统的特点，以及集成过程中所做的主要工作。在集成数据交换之后的BC-PDM系统中，我们还将对数据交换的流程进行演示。

其他文献

基于运动时空相关性的视频编码及质量评价技术研究

随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展，数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现，向视频

学位

多媒体通信视频压缩图像编码编码标准

代码生成技术在MIS系统中的研究与应用

近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事

学位

管理信息系统关系数据模型代码生成技术开发效率工程应用

HRV软件算法分析与验证

心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电

学位

心率变异性病理诊断小波变换软件开发算法优化

面向社区问答的问题分析与处理关键技术研究

社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计

学位

社区问答系统功能模块信息检索工作原理标签技术

面向大数据的分布式数据流处理引擎设计与实现

数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展，电子数据量的急剧增加，普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时，随着Web2.0和社交网

学位

分布式数据流处理引擎设计扩展能力节点失效动态均衡

中小学代数方程应用题的表征与分析研究

中小学代数应用题的研究一直是国内外智能教学系统的研究热点,随着语言描述复杂性的提高及方程解题思想的引入,代数应用题智能教学系统面临更大的困难。本研究以我国中小学代

学位

中小学教育智能教学系统代数应用题句法树分析框架表征判断规则自动列方程

词法规则在维吾尔语语音识别中的应用

自动语音识别技术经过60多年的研究和开发，取得了很大进展。目前，英语、汉语等大语言的语音识别技术逐步成熟，开始进入商用阶段。维吾尔语语音识别研究在近几年才得到重视，在研究

学位

维吾尔语语音识别词法规则词切分性能语音现象建模

多描述编码与网络编码在无线传感器网络中的应用与实现

在信息技术快速发展的今天,网络使得数据传输更加有效。无线传感器网络因为其自身的网络环境复杂恶劣,以及对信息及时性和准确性的高质量要求,已被广泛应用到军事领域、环境

学位

多描述编码网络编码无线传感器网路

中华字库问答系统中关键算法的研究与实现

互联网技术的发展一直是以人为本，用户体验是互联网产品的命脉所在，而快速便捷的服务是用户体验中最重要的因素之一。搜索引擎曾经一度让人们从海量网页中获取有效信息的繁琐中

学位

互联网技术问答系统翻译模型相似度计算公式

森林生态传感网的实用化定位与巡检策略研究

在社会经济高速发展的今天,人类赖以生存的自然环境受到了前所未有的破坏,人们越来越认识到森林对环境保护的重要性。为了对森林生态环境更好的认识和保护,借助于现代无线传

学位

森林生态无线传感器网络定位巡检

基于Hadoop与RDBMS的海量数据交换工具的研究与实现

与本文相关的学术论文