基于频繁项集的HDFS小文件存取方法研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:xfzhang901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop分布式文件系统广泛应用在文件存储领域,随着网络技术的发展和用户需求的增长,产生了大量的小文件数据。目前,HDFS存储海量小文件的不足之处包括以下两个方面:存储海量小文件时NameNode内存空间消耗巨大;客户端频繁的与NameNode通信造成NameNode的I/O性能下降。因此如何使用HDFS对海量的小文件进行有效地存储和管理,并实现高效、准确的搜索和访问,是一个亟待解决的问题。也成为了当今重要的研究方向。本文就是在HDFS存储海量小文件问题上提出了新的解决方案并评估其可行性。为了解决HDFS海量小文件存储的问题,本文设计了关联文件合并算法和文件缓存与更新算法。关联文件合并算法通过对Apriori算法进行分析改进,将原始数据集转换为10-事务矩阵,并增加事务计数、项目计数来进一步压缩矩阵,能够有效地减少Apriori算法剪枝过程中遍历事务数据库的次数,降低I/O开销,提高算法的执行效率,通过将强关联性的文件合并在一起,可以为文件读取阶段减少请求文件访问时间做准备。然后设计了基于队列的小文件合并算法,可以有效地缓解HAR归档技术存在的数据块中产生内部碎片和文件体积分布不均的情况。文件缓存与更新算法旨在通过增加文件缓存策略来减少客户端与NameNode的通信,根据预测的文件序列,将接下来可能被访问的文件提取至缓存区中,若用户请求的文件在缓存区中,则直接将文件返回给用户,可以减少客户端与NameNode的通信次数,提高文件读取效率,随着用户兴趣爱好的改变,设计使用基于长短期记忆网络模型来更新文件序列,提升预测的文件序列的准确性。实验表明,本文提出的解决方案在文件存储阶段能够有效地提高DataNode数据块的利用率,降低NameNode的内存消耗;在文件读取阶段能够减少客户端与NameNode通信的次数,提高了文件读取效率,缩短了用户的访问时间,证明了本文提出的小文件存取优化方案的可行性和有效性。
其他文献
为了实现地图资源共建共享,满足领导决策用图,采用微服务架构,基于Android移动端开发了辅助决策用图系统,该系统实现了地图资源运维管理、纸质切片地图分类预览、POI检索、专
本报讯(记者 李小华)18日下午,市委常委、宣传部长向华全前往高新区调研文化产业发展、生态旅游休闲项目开发、城市公园规划及板仓工业园区建设时强调,高新区在拓展城市发展空间
报纸
白酒是我国民族传统产品,历史悠久,文化积淀深厚,是中华民族宝贵的文化遗产。经过多年的发展,低度白酒、降度白酒已占市场份额的80%以上,成为中国白酒生产消费的主流。低度白
随着我国农业科技化的发展,我国的水稻灌区节水灌溉推广面积也不断扩大,灌溉水高效利用的尺度问题无疑已成为当前研究的热点领域。中文通过对水稻灌区节水灌溉的尺度效应进行
目的为观察G-CSF(粒生素)在放化疗中对白细胞减少症的治疗效果。方法对85例经病理证实的癌症化疗治疗后患者进行分组治疗,观察组43例,对照组42例。观察组在化疗中加用粒生素7
国防科技成果转化模式的划分主要考虑成果所处的领域以及军用和民用的关系,在此前提下,国防科技成果转化的模式可划分为军转军模式、军转民模式和民转军模式。
桡骨小头半脱位为常见的儿童肘部损伤,多发生在1~5岁,常因外力牵拉或外伤所致,又称"牵拉肘"。
目的基于二代测序技术(next generation sequencing, NGS)用于Y染色体多拷贝短串联重复序列(multi-copy short tandem repeat on Y chromosome, Multi-copy Y-STRs)DYF404S1
<正>人口是社会生产和生活的主体,若想深入了解某个区域的社会经济,必须首先弄清其人口状况。但是,古代户口统计往往只包括著籍人口,而对著籍人口的统计也往往流于形式,所以
会议
目的探讨中药一日煎剂量在开发成不同剂型后是否制成等同于中药煎剂一日中药用量。方法通过查阅文献,考证《方剂学》中一日煎剂中药量在现行《中华人民共和国药典》中制成不