基于HDFS的社交网络海量小文件存储研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:uniw0909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展使其产生的数据呈爆炸式增长,传统的存储方式已难以胜任海量数据的存储,尤其是海量小文件的存储。由于海量小文件在元数据的管理、访问性能等方面面临巨大挑战,因此成为热点问题。本文在总结社交网络数据访问特点的基础上,对存储在Hadoop分布式文件系统HDFS(Hadoop Distributed File System)中的海量社交网络小文件进行了深入的研究,具体包括以下几个方面:(1)通过合并小文件方式减少所占Name Node内存,同时索引采用全局索引加局部块索引相结合的索引方式。(2)对于合并后仍小于数据块大小的文件,提出二次合并方法。即首先将每个用户的相关文件合并放入一个容器中,之后将小于数据块大小的文件再次合并,保存至HDFS中。(3)针对传统的静态合并文件方法不适应用户的动态访问的局限,本文采用一种基于访问日志的动态合并方法,其中考虑到合并文件的一致性,提出基于子集检测的频繁项挖掘算法,找出相关的小文件,从而实现小文件的动态合并。动态合并方法将本文的研究目标从文件层面转换到用户访问层面,为小文件的合并提供了理论依据。(4)动态合并可以预测用户下一步的访问,为预取小文件做引导,提高预取命中率。但预取和缓存的文件过多,便需要采用缓存置换算法。本文提出一种含循环单链表的缓存置换算法来清理缓存中的内容,达到空出缓存空间的目的。经实验验证,对于合并后仍小于数据块大小的相关文件,本文所提的方法可以达到减少访问时间的目的,即改进HDFS顺序读取文件的时间是原始HDFS读取文件时间的88.2%,同时合并后的文件所占Name Node内存和写入时间也随之减少。
其他文献
以谷歌、百度为代表的搜索引擎为用户提供便捷的网络搜索服务,当用户在搜索引擎的搜索栏中输入某一搜索请求时,搜索引擎能够自动联想,补足关键词,为用户提供搜索建议,这称为搜索引擎的自动补足算法。虽然其初衷是节约用户时间成本,提高信息检索效率,但自动补足算法提供的搜索建议可能侵害他人名誉权、隐私权、著作权、商标权,造成算法损害。然而百度、谷歌等搜索引擎作为网络服务提供者,是否应对平台中自动补足算法造成的损
汉语是当今世界使用人数最多的语种,若可以提取出由默读而诱发形成的脑电图的有效特性,将其作为脑机接口的操控输入,则可以丰富脑机接口的范式,并有助于失语症病人的康复。本
互连网络是超级计算机的重要组成部分,其拓扑结构是指超大规模计算机系统中的元件(处理器)的连接模式,互连网络的结构和性质是超级计算机研究的重要课题。在设计和选择互连网
我国工业化的迅猛发展导致了一系列的环境问题,其中温室效应尤为严重,导致温室效应的气体主要为CO2,目前对CO2的捕集已经成为我国可持续发展的工作重点之一。菱沸石具有特殊
本文是一篇钢琴大师课口译实践报告,笔者从陪同音乐家亚伦?肖的口译实践工作中选取了2小时的大师课为这次口译实践报告的基础,阐明了在口译过程中出现的各种翻译难点,并针对
安东尼奥·奈格里作为意大利著名马克思主义理论家和意大利“工人自治”运动的思想领袖,与其学生迈克尔·哈特——美国著名马克思主义理论家共同合作,创立了独具特色的生命政治理论。奈格里与哈特的生命政治理论与其所处时代密切相关。当时福特制工业生产模式危机导致的意大利持续10余年的工人运动以及经济全球化催生的西方新社会运动,促使奈格里与哈特开始关注生命政治问题,并基于斯宾诺莎的唯物主义架构,在融会贯通福柯生命
目前,城市环境污染严重,尤其是空气污染,空气污染又以CO_2排放为主。城市人口密集,运输配送活动频率高,在这一过程中燃油车产生的CO_2排放已成为城市空气污染的主要来源之一;电动车由电力驱动,而火力发电是我国的主要发电方式,该种发电方式仍会产生大量的CO_2。综上,如何在现有设施基础上,减少能量消耗和CO_2排放对减少环境污染有着重要意义。在城市范围内进行配送活动时,由于道路网络复杂,交通量分布不
BE-295B Ⅲ电铲使用时间已达十多年,原有的电控设备故障频发,尤其是GTO采购经费高,周期长,因此对其进行电气改造势在必行。在查阅大量电铲改造资料及通过对6#电铲原有控制原
词汇在英语教学中占有重要地位。只有掌握词汇,才能更有效地促进听、说、读、写四方面的发展。不同的学者对如何教授词汇有不同的看法。有两种有典型的方法:一种是显性词汇教
2005年以来伴随首钢公司战略性搬迁调整转移,逐步形成“一业多地”的战略布局,分别在河北省的迁安、秦皇岛、曹妃甸等地建设投产钢铁厂,同时,逐步压缩北京地区钢铁产能,产能