基于Hadoop的海量教育资源小文件的存储研究与实现

被引量 : 6次 | 上传用户:cdelphi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教育资源是指网络学习中存在的各种形式的学习资源,有文本、视频、音频等形式,其中文本学习资源占80%以上,它们的数量很大而且文件大小一般为KB级别,很少达到MB级别,故称之为教育资源小文件。在互联网时代下,网络学习中教育资源小文件的规模越来越庞大,处理时工作量很大,传统的分布式文件系统无法满足海量教育资源小文件的存储需求。Hadoop开源分布式处理平台,提供一种可靠、可伸缩、高效的方式处理大数据。Hadoop的分布式文件系统HDFS,具有很强大的数据存储能力,在大数据处理方面有很优异的表现。但是HDFS是为处理大文件而设计的,它在处理海量小文件时存在一些不足,如:存储海量小文件时产生的元数据会迅速耗费NameNode的内存,可能引起其内存瓶颈;在进行小文件的频繁访问时,需要在多个DataNode间不断跳转,这会导致文件的读取效率降低;相比系统处理相同数量的大文件的速度,对小文件的处理速度过慢。为了解决海量教育资源小文件在Hadoop平台上的存储问题,本文提出了一种基于Hadoop的海量教育资源小文件的存储优化方案。优化方案包括以下四个部分:1)小文件的分类关联:教育资源文件在上传到HDFS集群之前,通过判断文件若为小文件,则利用分类算法对它进行分类,然后利用层次聚类算法对分类后的小文件进行关联,生成关联小文件。2)小文件的合并:将分类后的关联小文件合并成大文件,以大文件的形式上传到HDFS集群中。合并操作可以缓解大量元数据对NameNode内存的消耗。3)建立索引文件:为大文件创建索引文件,小文件检索时,利用索引文件可快速检索到小文件,提高小文件的检索速度。4)元数据缓存及关联小文件预取:首次读取文件后,将文件元数据及关联小文件预取缓存到客户端。预取缓存机制可以提高小文件的读取效率。最后,通过实验对小文件的存储优化方案进行测试,设计了三组实验分别对比文件的写入时间、小文件的访问时间以及系统的内存占用率情况。实验结果表明,本文提出的海量教育资源中小文件的存储优化方案可以缓解大量小文件对NameNode内存的迅速消耗问题,可提高小文件的随机访问效率,可减少系统资源的花销,还可以减少小文件的读写时间。
其他文献
浆细胞样树突状细胞(pDCs)是一类重要的免疫细胞,在病毒感染应答中产生大量的Ⅰ型干扰素.pDCs通过特异性表达TLR7和TLR9识别病毒核酸,成为专职的Ⅰ型干扰素产生细胞.pDCs产生
<正> 筷子是中国古老文明的象征中国是筷子的发源地,我国有史记载的用筷历史大约有3000多年。筷子作为中国古老的传统饮食文化特征之一,被世界誉为"东方的文明"。著名的物理
期刊
本文对知识型企业的特点进行了探讨 ,认为知识管理必须成为知识型企业的一项有效制度安排 ,敏捷企业是知识型企业的未来发展模式 ,并对我国知识型企业管理提出自己的看法。
<正>2016年,山西省太原市在一年内将全市的8292辆出租车全部更换为电动车,成为全国第一个出租车全部电动化的城市,也是世界首例。当前,在燃油车限令接连出台,电动车产业备受
英语写作也称书面表达,作为考查小学高年级学生运用英语能力的一种题型已普遍替代使用了多年的以"汉译英"为主的翻译题。新课程标准明确提出外语教学要"以培养学生创新精神和
电压调节和功率平衡是直流微网的两个主要控制目标。为了实现这两个控制目标,对传统的下垂控制方案进行提高,提出一种基于通信网络的分布式协同控制方案。本地控制器由一个电
后经济危机时代,我国外贸的强劲反弹带动国际物流市场加快复苏。资源相对较为匮乏的中小国际物流企业应紧抓新的发展机遇,在对国际物流行业现有企业、潜在竞争对手、替代品、
<正>反腐、雾霾、房价,你知道别人最关注的是哪个吗?教育、医疗、养老,你知道哪个问题大家和你一样头疼吗?……日前,复旦大学发布了《中国网络社会心态调查(2014)》之"十二大
雷达通信一体化组网目标定位是多传感器数据融合技术的典型应用之一,与单部雷达的探测结果相比,多部雷达的测量数据可以有效地实现目标的准确定位,这种融合定位方法引领着未
由于受限于无人机的飞行载荷,同时也希望无人机可以实现更长时间的滞空探测,因此无人机所携带的传感器是有所限制的。然而为了获得场景中更多更丰富的信息,那么采取携带多源