基于Hadoop的海量数据处理模型研究和应用

被引量 : 445次 | 上传用户:lishuangjie2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是信息的载体,信息是数据的内涵,一般认为数据是信息系统的基础。利用计算机来处理数据,提取信息是信息系统的基本功能。在当今高度信息化的社会里,Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。如何实现快速地从这些海量数据中提取出对企业有用的价值信息已成为程序员在开发应用软件的过程中碰到的最令人头疼的问题。基于这个问题的出发点,本文在分析现有分布式储存和计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型,并从数据结构设计、程序流程组织和编程技术的使用等几个方面来介绍这个模型的开发方法,最后将该模型应用于大型网站的web日志数据预处理过程中。针对该模型我们还设计了一种有效的基于分布式的预处理模式。该模式首先在各分布式服务器上进行关联匹配,然后将各个服务器上的挖掘结果合成。这有利于减轻网络频繁的通讯负担,体现并行计算、异步挖掘、异构数据规约的优势。同时,它允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。除了数据挖掘之外,该模型还可以应用在诸如图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式框架技术来很好的满足项目的需求,并将模型部署到实例当中,用实验结果来检验模型的实用价值,比如高效率、低成本、可拓展性和易维护性等。在与原来的预处理系统相融合的基础上,我们还对初级的模型进行了性能的优化,主要包括:简化规则的改进、多任务的优先级设定和网络负载平衡算法的优化。
其他文献
<正>江苏省扬州市采取政府推动、政策扶持、招商引资等多种措施积极推进,以土地股份合作、土地流转集中、农业社会化服务等为主要形式的农业适度规模经营取得重要突破。目前,
自上世纪八十年代以来,“民工潮”作为现代社会城市化进程中不可避免的趋势,已渐渐为人们所接受。正当社会各界将目光聚焦在大规模人口流动所造成的三农问题、流动儿童、城乡
【正】 我国石油企业目前仍存在着缺乏活力,经济效益差的状况。究其原因,笼统说来,固然是旧的管理体制的诸多弊端所造成,具体地说,还在于石油企业的定性、定量、定位的偏差所
蔷薇科(Rosaceae)是双子叶植物纲经济价值较高的一个大科,该科许多植物可作观赏,在世界各地的庭园绿化中占重要的位置,另外该科中有些植物可入药,具有药用价值,同时许多种是
在小学美术教学中渗入人文性教学理念有助于提升学生的精神境界,使美术学习更加丰富、形象、有趣。文章从渗透人文教学、活跃课堂氛围、情境创设、注重人文性的教学评价几个
现在,小学教育越来越注重人文素养的培养,而美术是培养人文素养的重要科目。但是,部分小学美术课堂对人文素养的培养不够重视,教师在上课时多讲授美术技法,而没有让学生真正
在国家科技基础条件平台绩效概念界定的基础上,本文对国家科技基础条件平台运行服务绩效评价方法和影响因子进行了系统分析,并构建了国家科技基础条件平台运行服务绩效考核指
岩土工程勘察是建筑工程施工中至关重要的环节与内容,加强岩土工程勘察至关重要,岩土工程勘察与水文地质问题简单而言就是地下水对岩土优劣的影响分析。水文地质考察的准确性
不少客家话单数人称代词存在领格形式"?a~1(我的)、?ia~1(你的)、kia~1(他的/她的/它的)",学界对此关注较多,不过其语源探究目前分歧较大。本文在前人研究基础上深入分析后认
图像信号在产生、传输和记录过程中,经常会受到各种噪声的干扰,严重地影响了图像的视觉效果,因此采用适当的方法减少噪声(即进行图像噪声的滤波),是一项非常重要的工作。本文