论文部分内容阅读
教育信息化2.0时代下,数字教育资源出现了爆炸式的增长,传统的单机文件系统已经无法容纳这些海量的教育资源,HDFS(Hadoop Distributed File System)作为分布式存储系统的佼佼者,凭借其可以安装在低成本的机器上,拥有高容错、高可靠性以及流式访问等特点,很适合用来存储海量教育资源。尽管HDFS作为海量教育资源的存储系统很有优势,但原生的HDFS也存在可以改进的地方:一方面,随着存储的教育资源增多,HDFS采用的默认放置算法导致数据节点负载不均匀的现象愈加明显,这会严重影响文件系统性能;另一方面,HDFS为了保证数据可靠性而不加区分的对所有教育资源采用多副本冗余策略,这会给文件系统带来极大的存储代价。为了改进HDFS文件系统存在的不足,本文通过充分的调研发现目前的研究多是从文件的热度以及集群节点的异构性入手,其中文件热度又是指导算法改进的主要参考指标。对于教育资源存储来说,文件热度就是教育资源的受欢迎程度,而教育资源相对于其他文件资源来说,是否受学习者欢迎与其资源的价值密切相关。因此,本文将结合教育资源价值对HDFS的放置算法和数据冗余策略的改进展开研究。首先,为了实现对教育资源受欢迎程度评估,本文建立了教育资源价值评价指标体系,在选择评价指标时参考了受欢迎教育资源的普遍特点以及前人构建的各类具体教育资源评价体系;建立教育资源评价体系是为了指导后续放置算法和资源冗余存储策略的改进,故通过构建教育资源的价值评级模型来将教育资源划分等级。然后,利用划分好的教育资源等级,本文设计了一个基于教育资源评级的存储放置算法,该算法额外记录了每个数据节点中各评级教育资源的数据量,当存入资源时,将综合各数据节点的存储数据量和该存入资源所对应评级的存储数据量后进行排序,以选取一个最合适的存储节点。最后,鉴于传统多副本存储策略对会消耗大量的资源空间,本文提出了一种基于教育资源评级的数据冗余存储策略,根据不同评级的教育资源受欢迎程度不同,对于评级高的教育资源采用多副本存储方案,保证资源可靠性的同时提高系统负载能力,对于评级较低的教育资源采取纠删码技术进行冗余存储,并提出一种动态转换算法,方便两种冗余存储方案的转换。本文为了验证算法的有效性,在提出相关改进算法或策略的对应章节都进行了仿真模拟实验,通过与HDFS默认的算法或策略的实验结果展开对比分析,得出改进的放置算法实现了各节点存储负载均衡、提升了访问负载能力,改进的存储策略减少了空间消耗,提高了存储利用率。