基于Hadoop海量小文件存取策略研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:z_clear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各类社交网络、电商网络、在线文档平台呈现爆发式增长。与此同时,网络数据量中的图片、文本文档、音视频等小文件呈指数级增长。传统的数据存取、检索己经无法满足当前需求,尤其是在低延迟、高准确率等应用场景方面。而使用云计算存储和检索海量数据可以达到硬件资源高效利用,并避免了传统数据存储方式的弊端。在当前主流的云计算平台中,Hadoop以其生态完整、完全开源等特点成为首选方案。Hadoop的核心组件包括了并行计算模型MapReduce和分布式文件系统HDFS。HDFS是一个分布式的文件系统,被设计来处理大文件,能够处理大量的数据,但在处理海量小文件存取存在内存负担大、存取性能低的问题。本文分析在线文档平台的业务特点,分析HDFS在海量小文件场景下遇到的性能挑战,设计并实现了基于Hadoop的海量小文件存取系统应用。该系统为满足高并发的随机写入、读取的访问请求,采用“本地存储一HDFS”两级存储架构设计,既满足系统的高并发读写需求,又能够提供线性可扩展的海量存储能力。课题研究主要内容包括以下三部分:1,重点研究了 HDFS,并对HDFS自带的存储方法原理和优缺点进行分析。2,研究并讨论了检索原理及全文检索系统实现。3,结合在线文档平台的业务特点和HDFS架构特性,设计了一个基于HDFS的海量小文件分布式存取系统,创新性设计了对海量小文件的合并保存,关联文档的预读取功能,充分利用了 Hadoop的海量存储、高容错性的特点,规避了 Hadoop无法高效对海量小文件进行存取的缺点,实现特定业务场景下的高吞吐、低延时,详细阐述了系统实现思路并编码实现。
其他文献
桥梁、路堤、隧道等道路结构通常用于方便运输。这些结构在地震中经常面临不同程度的破坏。这些结构的性能在地震后需要保持在一定的水平,这将有助于道路通信系统在地震后很
随着制造业的快速发展,人们的物质生活水平不断提高,越来越多的家电产品开始进入人们的视野,消费者对于家电产品的需求也越来越多,而为消费者提供这些产品的是企业自动化生产
贵州金花茶(Camellia huana T.L.Ming et W.J.Zhang)属于山茶科(Theaceae)山茶属(Camellia),是一种开黄色花朵的小灌木,是金花茶类物种之一。贵州金花茶的分布十分狭窄,仅分布在广
近几十年来黄河径流泥沙情势的巨大变化对流域内的用水安全和灾害的防治等方面产生了不可忽视的影响,对黄河水沙情势的认识,关乎未来治理黄河的策略。因此,本论文对黄河流域
油菜根肿病是由芸薹属根肿菌(Plasmodiophora brassica)侵染引起的一类土传病害,是油菜上发生的主要病害之一。本文针对前期筛选到的2株生防细菌F85和T113,通过16S r DNA、gy
在高纬度的寒区,混凝土大坝、桥梁、隧道等结构会经受疲劳荷载和冻融循环的共同作用,实际使用中混凝土结构往往会在此基础上受到动载的作用。本文以210个混凝土试块为研究对
随着互联网的快速发展,在线学习已经成为人们学习的重要方式之一,在线学习视频网站为用户提供了海量的教学视频资源。推荐算法可以帮助用户从海量的视频资源中快速找到适合自己的资源,提高用户体验,增加用户的粘性和忠诚度。因此,推荐算法由于其应用的广泛性,逐渐成为一个研究的热门课题。针对传统视频推荐算法中,用户观看视频过程描述不详细导致推荐效率低的问题,本文基于协同过滤推荐算法提出了一种基于用户行为的视频内容
红花瘤果茶(Camellia rubituberculata)为自然分布狭窄的贵州特有稀有植物,花红色,果实表面瘤状突起,是山茶属中的特殊进化种类,颇具科研和经济价值。现仅发现于贵州省晴隆县紫
繁殖是鱼类生活史中极为重要的环节之一。本文从形态学、组织学和细胞学层面对四指马鲅(Eleutheronema tetradactylum)的精子和卵子发生、精巢和卵巢发育及其性逆转的过程进
碳氢燃料油是燃料电池的理想氢源,但是碳氢燃料油中较高含量的硫化物易使燃料电池中的催化剂和电极中毒。碳氢燃料油中硫化物的燃烧又会转化为硫氧化物导致严重的酸雨问题。