基于HDFS的文件存储与读取的优化策略研究与应用

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:ccmsdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络数据量急速增长的现代社会,大数据存储处理技术正在蓬勃发展,其中HDFS(Hadoop Distributed File System)系统是大数据存储处理技术中应用最广泛的。由于HDFS的存储机制,在面对海量的小文件时会出现名字节点的内存瓶颈问题,所以对HDFS的文件存储与读取的优化策略的研究与应用,对解决海量小文件存储和大数据处理有着重要的探索价值和实际意义。海量小文件存储平台是随着信息化建设不断深入而被提出的课题,而现代网络资源存在着数量大、文件体积小等特点,本文的研究成果能够为海量小文件存储平台的建设添砖加瓦。论文从海量小文件的特点和HDFS的存储机制入手,分析了HDFS存储与读取文件的策略,提出了一种基于文件关联关系和基于数据块平衡的PS文件合并算法,利用核心的PS文件合并算法构建了HMM(Hadoop Merging Middleware)中间层,所有用户文件的上传下载都要经过HMM中间层,通过实验测试验证能够提高HDFS处理小文件的性能。论文主要工作有:(1)对当前国内外对于海量小文件处理和海量小文件存储平台的现状进行了调研,研究了HDFS工作机制,对建立海量小文件存储平台所需要的技术进行了深入的学习。(2)提出了一种适合海量小文件存储的PS文件合并算法,能够通过文件关联关系和数据块平衡,将小文件组成大文件存储在HDFS,将文件的合并信息存储到Redis,通过该算法能够用尽量少的数据块来存储数据。依照算法构建了HMM中间层来处理海量小文件,当从HDFS获取数据时,利用缓存来提高读取效率。(3)对海量小文件存储平台的用户进行了研究,总结用户的功能需求,使用开源的Hadoop来部署平台开发环境,针对数据资源文件体积小、数量大、非结构化程度高的特点,融合了My SQL关系型数据库与内存型数据库Redis,构建了web海量小文件存储平台。
其他文献
搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们
在自然生态环境与人类的关系越来越密切的今天,随着虚拟现实技术的迅速发展,虚拟植物可视化研究方向被人们广泛重视,成为了众多研究热点之一。虽然植物形态结构十分复杂,与环
随着计算机网络技术的飞速发展,计算机已不再是遥不可及的高科技产品。如今,计算机已经普及到了千家万户,成为了大多数人工作、学习、生活不可或缺的工具之一。由于网络已经渐渐
信息技术的快速发展使计算机软件的执行效率和硬件的性能都得到了很大的提升。在当今时代,很多设备都具有计算能力与数字通信能力,而且这些设备之间可以互相交换信息和使用对
在人机交互领域,传统的单语音识别技术在相对安静的环境下对连续的单词或短语能够达到较高的识别率。然而,将其应用到真实环境时,其识别能力通常会由于背景噪声等因素的影响受到