基于Hadoop的大数据处理平台设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:kobe20060121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,越来越多的数据被产生,这使得大数据处理技术在近几年成为最热门的技术研究之一,然而在实际应用中,大数据处理技术的普及速度远远不及数据产生的速度,这使得很多企业面临数据不能及时进行有效处理,导致不能挖掘出数据的价值。怎样实现对大数据集的高效处理,是本文研究的主要内容。而其中的处理过程包括数据抽取、数据转换、数据加载,该处理过程也即ETL过程。本文内容致力于通过Hadoop大数据存储架构、Hive、flume数据采集技术和Sqoop数据同步技术构建大数据处理平台实现对大数据集的高效处理。Hadoop是目前最流行的大数据处理框架,具有高可靠性、高可扩展性、高效性以及低成本等优良特性,Hadoop实现的MapReduce计算框架是一个高效的并行框架,Hadoop用户必须编写特定MapReduce程序来处理任务,但是Hadoop暴露出来的接口比较底层,即使是一个简单的任务用户也需要编写大量的代码,且代码可复用差。而Hive的出现很大程度上解决了这个问题,Hive是基于Hadoop的一个开源数据仓库工具,它支持使用类SQL语言,Hive可以将HQL编译成MapReduce程序,这使得Hive可以利用Hadoop高效并行处理能力。因此Hive用户能够编写少量的代码进行快速开发。因此本文选用Hive作为数据清洗及加工工具。基于对这些大数据技术特别是Hadoop和Hive的深入研究,本文开发了一个基于Hadoop的大数据处理平台。在数据ETL过程中,其中以数据转换过程时间最长。所以在本文中重点研究了Hive QL的优化原理和方法,并通过该研究实现了对实际业务数据处理Hive QL的优化。
其他文献
总结了应用马斯洛需要层次论提高手术室优质护理工作的体会,分别从满足患者的生理需要,安全需要,爱与归属的需要,被尊重的需要和自我实现的需要等角度进行阐述。认为将马斯洛
目的:研究疏肝健脾中药对替比夫定治疗HBeAg阳性慢性乙型肝炎肝郁脾虚证的抗病毒疗效及肌酸激酶的影响.方法:将符合入组条件的90例病例,随机分为治疗组45例和对照组45例.治疗
纸浆模塑餐具是发泡聚笨乙稀(EPS)餐具的理想替代品,世界上纸浆模塑餐具的生产厂家大部分集中在中国。现有纸浆模塑餐具生产设备存在自动化程度低、生产成本高、且生产过程及
字母词语是社会语言学研究的重要领域。作为对字母词语在现实生活中不断应用的客观反映,近年来,有关字母词语的研究呈现出前所未有的局面,出现了不少相关方面的论文及著述。
为了了解雷公藤多苷片对体外血管内皮细胞(HUVEC)管腔形成能力的影响以及对Ⅱ型胶原诱导性关节炎(CIA)大鼠关节滑膜血管新生的作用,该研究拟采用20μg·L-1血管内皮细胞生长
指类句是一种表达一类事物普遍特征的句子,如“鸟会飞”,“鸡生蛋”,“蚊子携带西尼罗河病毒”等,这种表达在人们的日常对话和某些百科性质的书中十分常见。存在并容忍反例是
随着我国经济体制改革的不断深入,中小企业蓬勃发展,在增加社会就业、加快社会化大生产进程、带动中小城镇及农村经济建设等方面也发挥着特有的作用,为国家和社会作出了巨大
模糊性是文学作品艺术魅力的一种本质特征。而相对于其他文学作品来说,诗歌最具模糊美,因为模糊美是诗人创作时一种刻意追求。因而,诗歌容涵着大量潜在的信息,同时它也赋予了
对比评析往往是我们认识差异的起点。而准确分辩差异又是我们赖于进行实践的准绳之一。对翻译实践而言,尤其如此。译文的对比评析可以在各种层次上,从不同的角度进行。本文依
“自由”和“粘着”是一对很有争议的概念,对“自由短语”和“粘着短语”的区别也不是一件容易的事,一些前辈学者从不同角度运用“自由”和“粘着”概念对语法现象进行过研究,对