Hadoop架构下数据挖掘与数据迁移系统的设计与实现

被引量 : 0次 | 上传用户:turobc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统、备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差。针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一。此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案。具体内容如下:(1)分析了MapReduce分布式架构、HBase数据库、HDFS分布式文件系统等Hadoop关键技术。(2)设计并实现了基于Hadoop架构的分层存储系统,并对系统和大数据平台的架构设计进行了详细的阐述。(3)设计并实现基于MapReduce模式的数据挖掘模块,将传统关系型数据库的分析方法应用于HBase数据库,有效的对HBase数据库数据进行挖掘分类。(4)设计并实现了数据迁移模块,实现了将在线业务平台的结构化数据和非结构化数据迁移到大数据平台的功能。结构化数据迁移的过程采用MapReduce数据迁移,设计了基于IO负载的调度算法,调度时考虑到资源使用情况,避免将任务分配给IO负载重的节点。设计实现非结构化数据迁移工具,巧妙地利用FTP,多并发的将在线业务平台的日志文件等数据迁移到HDFS指定目录下。(5)对系统的功能和性能进行了完整的测试。测试结果表明,系统所有的功能模块都满足设计要求,且文中提出的IO调度器与默认调度器相比有更好的迁移性能。论文设计的数据挖掘和数据迁移系统满足了特定的要求,具有较好的并发数据迁移性能,并且实现了大数据规模下的数据分类挖掘。
其他文献
我国证券市场经过20多年来的蓬勃发展,取得了巨大的成就;在证券市场突飞猛进的发展过程中,上市公司的并购重组业务也日益频繁。国家作为游戏规则的制定者和市场的监管者,也在加快
在《公众舆论》一书中,沃尔特·李普曼为我们描绘了一幅舆论悬于虚空大地的图景,认为公众舆论是不可能的。但随着互联网时代的来临和传播环境的变化,公众舆论正在一步步地走
以某型号航空发动机阻尼减振需求为背景,对开发研制的金属橡胶隔振器与现用的橡胶隔振器进行了动、静态实验研究。研究结果表明:金属橡胶隔振器的能量耗散性能、静态承载能力
<正>面积仅相当于北京故宫3/5的梵蒂冈,坐落在意大利首都罗马城西北角的一座山丘上,是一个典型的城中之国,有趣的是,这个全世界最小的国家,却是8亿天主教徒的精神中心,每年吸
本文主要在分析大跨径连续桥梁施工技术特点的基础上,结合实际案例,阐述大跨径连续桥梁施工技术的运用。
采用无梯度反应器对球形和三叶草形两种不同形状Co Mo系耐硫低温变换催化剂的宏观动力学行为进行了研究。催化剂采用近年上海化工研究院研制的SB 8钴钼耐硫变换催化剂。动力
随着现代信息技术的迅猛发展,软件技术已经渗透在各行各业当中,其应用也变得日益广泛和深入,特别是针对办公自动化系统(OA)的管理软件,不管是大型企业还是中小型企业,都为他们提供
文中就FDM快速成型技术提出一套基于ARM控制器的嵌入式、模块化、网络化控制系统。FDM控制系统由主控模块、运动模块、温控模块和送丝模块四大模块组成,各个模块都带有独立的
意大利人的工作态度和效率则叙述了作者在意期间的亲身体验。 Italian work attitude and efficiency describes the author’s personal experience of care.
在光纤通信系统中,全光波长转换是波分复用的一项关键技术,它提供了波长路由和波长再利用功能,不但有效地节约网络资源(光纤、节点波长),降低网络的阻塞率,而且可以简化网络管理并降