基于Hadoop平台的大数据预处理关键技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ch12358
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据计算和分析系统作为一种计算机科学发展到一定阶段的必然产物已经吸引了各行各业的关注。大数据的价值在于对海量数据的存储,另一方面在于对数据的分析和处理工作。海量数据要依靠文件系统进行存储,海量数据的积累是一个相对缓慢的过程,数据上传到大数据计算机群需要一定的过程。针对于在数据积累和上传开始到数据被真正被数据处理程序处理的空闲阶段。通过利用空闲阶段进行数据处理,从进一步利用系统资源的角度针对大数据预处理系统进行研究。大数据处理中数据存在数据复用率较低的情况,数据预处理是有意义的并且数据的处理对未来的处理任务干扰较低,在数据处理任务被启动前,利用用于分析大数据的分布式系统中存储节点的富裕的计算资源,在文件系统中存储数据的本地节点上进行预处理任务。目的在于将系统中可利用的计算资源使用起来,提高系统的资源利用率,通过预处理作业后可以降低数据处理任务对计算资源的需求,并且预处理后的数据由于数据体积降低而降低对网络带宽的占用。Hadoop作为Map Reduce编程模型的实现,作为一种典型的大数据分析系统被广泛的使用。Hadoop系统中包含了诸多的功能插件,也包含有作为数据存储的Hadoop文件系统。针对Hadoop系统的特点,对Hadoop平台上的大数据预处理系统进行研究和实现,并针对Word Count程序构建了预处理系统的原型系统。通过针对Hadoop平台上Word Connt程序的数据预处理系统的实现和测试,验证了数据预处理系统在减少磁盘I/O使用,压缩数据体积,减少计算时间等方面有显著的作用。
其他文献
科学计算可视化技术把研究人员无法直观理解的数据变为人可以直接视觉感知的图形图像信息,目前已经成为科学计算与数值模拟领域不可或缺的技术和工具,在生物医学、计算流体动
本论文遵循MPEG-4和DVB-S国际标准,从设计者的角度出发,对DVB-S HDTV机顶盒的关键模块进行了全面的分析。所有的软件都是基于uclinux实时操作系统。研究的目标是开发具有基本的
互联网技术的迅猛发展催生了海量的数据,越来越多以数据为中心的应用渗透到人们生活的方方面面。这些应用对存储系统提出了更高的要求。其中,如何为这些数据建立高效的索引成
随着生活水平的提高,家用电器成为普及性的消费品。虽然家电作为独立的个体,功能非常强大,但是家电之间普遍不具备沟通以及协调工作的能力。本文研究的家居设备控制系统,是将日常
自微处理器问世以来,随着工艺水平和处理器体系结构设计的发展,微处理器经历了从单核到双核,再到多核甚至众核的发展历程。多核多线程处理器已经成为当前主流微处理器。但是
现有黄页检索系统采用基于关键词的信息检索方式,对要检索的信息只是基于语法层面上字、词的简单匹配,缺乏对语义的表示、处理和理解等能力,也即缺乏必要的智能性,导致检索质量低
度量是工程技术领域中一个不可或缺的要素,随着软件工程领域的长足发展,度量技术也逐渐融入到软件工程领域,并成为良好软件工程的一个重要组成部分。软件度量有助于对软件工程开
自从Steve Cook证明了第一个NP完全问题以来,大量的NP完全问题不断被发现,而且很多问题具有重要的实际应用。比如,SAT问题是大规模集成电路自动布线和人工智能领域的关键问题
随着信息技术的发展和网络化经济的快速进步,企业之间的竞争变的更加激烈,而企业的信息化和WEB技术的广泛应用,导致海量数据充斥在各个企业的现有系统中,如何有效利用这些资源,并
CORBA(Common Object Request Broker Architecture,通用对象请求代理体系架构)技术是当前最具有影响力的分布对象计算技术。CORBA规范成为开放的、基于客户/服务器模式的、面