基于Hadoop集群的海量数据计算和存储技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:lubiaofs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和信息技术的发展,信息量呈爆炸式增长,我们已经生活在数据时代。在当今高度信息化的社会中,互联网已经成为目前最大的信息系统,其里面的数据具有海量、动态变化、多样、异构等特性。而原来传统的关系型数据库在应对具有高并发、大规模以及TB/PB级的数据量的应用需求是,特别是当今流行的SNS类型的动态网站,已经显得力不从心。同时,随着云计算和云存储的兴起,如何有效地存储这些海量数据;如何能快速地能这些海量数据进行计算,提出对企业有价值的信息;以及何如方便地管理这些海量数据,成为当今互联网企业在面对海量数据时,碰到的一个技术难题。   本文基于这个问题为出发点,研究和分析目前在云计算和海量数据存储和计算方面,比较火热的云计算平台Hadoop。其平台在对海量数据进行存储和计算方面非常有优势,应用开发者不需要了解其平台底层的计算实现细节,便可以利用其平台进行分布式应用的开发,同时,其平台一般运行在普通廉价的计算机集群上,可以充分利用集群的威力进行运算和存储,这可以极大地节约投入硬件的经济成本。   本文首先介绍本课题的研究背景,研究意义和内容,并简要的阐述在海量数据存储和计算方面的云平台-Hadoop。接着,主要对在海量数据存储和计算方面的关键技术进行介绍,特别是目前火热的云计算方面的相关计算,其中介绍了云计算的基本概念和其体系架构,以及云计算中的虚拟化技术、并行计算和分布式计算、分布式存储技术、分布式数据管理技术等关键技术。然后,重点研究了Hadoop平台中的两个核心组件,分布式文件系统HDFS和并行编程模型Map/Reduce,对相关的基本理论概念,设计理念,框架结构进行了分析说明。再者,详细研究了Hadoop进行数据存储的实现技术,特别是在名称节点和数据节点的具体实现技术方面作了深入分析,以便更加深入了解Hadoop存储数据的技术细节,并针对基于文件系统的一个具体应用实例,对文件系统的性能进行了测试分析,得出了相关的结论,为以后面临的云存储打好技术基础。最后,对本文的工作进行总结和展望。
其他文献
环境污染问题一直是个大问题,困扰着人们的工作、生活和学习。污染物的监测也越来越受到人们的瞩目,污染源在线监测系统成为解决环境污染的有效途径之一。通常情况下,污染源在线
在现代信息社会里,表单是政府和各种企事业单位日常工作中常用的信息载体。传统电子表单普遍存在代码复用率低、开发效率低下、开发周期长、开发成本高等各种常见问题。随着
协同过滤是推荐系统中最流行且最成功的推荐算法。它基于群体智慧的思想,为目标用户选取行为最接近的邻居用户并根据邻居用户的喜好为目标用户进行推荐。协同过滤算法在帮助
伴随着互联网的迅速发展,网络已经成为了消费者反馈观点的主要途径。网络上包括的大量评论信息不仅仅为商家提供了一个信息展示的平台,也为消费者提供了产品使用体验交流的平台
随着互联网技术的快速发展,各种功能强大的图像处理软件的出现,越来越多的非专业人士可以轻而易举的对图像进行修改。图像如果被恶意的篡改并大量使用在新闻媒体等领域,将严重影
随着人类对海洋探索的逐步深入,海洋环境的安全问题也日渐突出。计算机视觉技术的发展为海洋学研究和海上安全防护开辟了一条崭新的途径,海上动目标的检测问题也在国内外掀起
通过对64位Linux操作系统的存储结构进行了研究,编程实现了一个内存分析的工具。从内存数据出发,研究进程链表的结构,页式映射以及空闲页面管理。通过内存数据和工具得到的结
当前,我国农业生产正朝着规模、多样、精确化的方向发展,劳动力成本迅速上升,同时农业劳动力资源也逐渐向其它社会产业转移,并且在不久的将来人口老龄化问题也日渐突出,所以农业机
根据人体的图像或者视频序列自动的提取图像中的人体姿态信息是机器视觉领域的研究热点。利用人体姿态估计方法,可以使得计算机系统根据摄像机系统拍摄的视频信息提取出人体的
交通运输业的发展水平是国家兴旺发达的重要标志之一。近半个世纪以来,交通拥挤、道路阻塞和交通事故等问题越来越严重地困扰着世界各大城市。随着计算机技术、通信技术以及