基于Hadoop平台的分布式ETL研究与实现

被引量 : 27次 | 上传用户:az137724907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据抽取、转换和加载(Extract-Transform-Load, ETL)是实现数据仓库领域中高质量数据的关键技术,也是为高层决策人员提供有效数据的核心技术。将海量数据通过ETL技术快速的抽取到数据仓库中是当前急需解决的重要问题,也是数据仓库领域共同关注的话题。本文运用数据仓库理论知识和大数据分布式处理技术,重点研究了分布式ETL框架、数据的并行处理和HDFS数据块合理分配的优化方法。本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计。分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架。第二,事实并行处理的研究。从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。实验结果表明,与Hive数据仓库相比,两种算法在并行处理数据仓库的事实数据的问题上,具有更高的效率。第三,HDFS数据块分配算法的研究。以网络流最小代价最大流理论为基础,运用改进的最短增广路径的方法求解最大流,以结点的网络距离和负载均衡为代价,提出了一种把HDFS数据块分配到分布式数据仓库的分配算法。通过实验表明,本文提出的分配算法与已有算法相比,前者具有更高的有效性最后本文给出了基于Hadoop平台的分布式ETL系统的实现过程,性能优于目前已存在的分布式ETL系统。
其他文献
研制了一种用真空蒸金和光刻技术获得的栅网式光透薄层电极。该电极在紫外-可见光谱范围内具有良好的透光性能。在Fe(CN)63-/Fe(CN)64-体系中,用循环伏安法和薄层光谱电化学法测
随着改革开放以来我国经济建设的不断深入,我国的综合国力有了显著的提高。尤其是在市场经济逐渐渗透到国民生活的每个角落的形势下,人民的生活水平相比以往有了很大程度的不
近年来,随着科技的飞速发展,新媒体越来越受到关注,成为人们议论的热门话题。新媒体的发展瞬息万变、日新月异,包含着众多模式与可能,未来的媒体形态一定是跨平台、跨媒体、
<正> 自本世纪初以来,国内外研究契丹史者不乏其人,各种著述亦不少见,但是始终无人编著全面、系统介绍契丹族的专史。张正明同志所著,由中华书局出版的《契丹史略》,则填补了
宋代定本制度始自咸平二年,于宋神宗熙宁四年被取消,宋徽宗宣和三年得到恢复。宋高宗绍兴二十六年,定本制度被再度取消,宋孝宗乾道六年又得到恢复,从此一直延续到宋朝灭亡。
构建社会治理协同机制,既是当前政府治理能力较强而社会发育程度较低的现实图景的必然选择,也是实现政府治理和社会自我调节、居民自治良性互动的必然要求。社会治理协同机制
随着企业经营活动的多样化,企业投资行为越来越受到企业管理层以及投资者的关注,在影响企业投资行为的各种因素中,现金持有量作为企业内部融资的一个手段,具有至关重要的影响
自"一带一路"倡议提出以来,中国与"一带一路"沿线国家(地区)的合作进程逐渐加深,经济贸易发展取得了一系列成果,中国在全球贸易网络中的地位和模式也呈现出了一系列新的特点
目的:探讨青春期白血病患儿疾病诊断的获知途径及其感受,为医护人员及家长与患儿沟通疾病信息提供指导。方法:采用质性研究的深入访谈法,对18位白血病患儿进行个体化访谈,使
老年病人用药常常会发生负性事件,特别是那些至少用5种药的老年人,但这些事件是可以预测并预防的。为老年人开处方时应综合考虑药理学知识和老年人的生理变化。关注特性结果,