混合云环境下基于Hadoop的内存级缓存策略优化研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hmxj1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的飞速发展,混合云作为主要的云计算模式之一,以其安全性、扩展性和计算灵活性而得到广泛应用。目前大多企业选用混合云模式利用Hadoop技术来处理海量数据。然而由于混合云环境下Hadoop技术发展时间较短,对缓存系统的考虑存在一些不足:没有区分待缓存文件的访问热度,一些访问频率较低的文件被添加到缓存,而某些访问频率较高文件的已有缓存副本数目无法满足访问需求,降低了缓存命中率;缓存中的已有文件可以被再次添加,造成缓存文件冗余,缓存空间浪费;同时,当缓存容量不足时没有采取合理的缓存替换措施,文件无法添加到缓存。如何合理高效地添加缓存文件,实现有效的缓存替换,以提高缓存命中率是混合云架构下Hadoop缓存系统亟待解决的问题。此外,良好的缓存预取策略能有效减少文件读取时间,极大提高任务执行效率,从而提高缓存系统的性能。因此,本文研究混合云环境下基于Hadoop的缓存替换与缓存预取策略。研究成果将为混合云环境下Hadoop缓存系统的研究提供一定的理论和技术支持,具有重要的研究意义。本文研究成果主要体现在以下几个方面:(1)提出了混合云环境下基于优先级和LRU的缓存替换优化方法由于在混合云的缓存系统中没有考虑文件热度因素,也缺乏合适的缓存替换策略,导致缓存命中率较低。为了合理利用缓存空间,提高缓存命中率,本文在研究现有LRU算法的基础上,增加了对文件热度、用户访问特征和优先级权重等因素的考虑,提出一种基于优先级和LRU的缓存替换优化算法。首先计算待缓存文件的文件热度,对于热度过低的文件,不添加到缓存;对于热度过高的文件,根据其访问特征计算缓存副本需求度,将需要增加的缓存副本添加到访问频率最高的节点缓存中。在添加文件过程中,如果缓存容量不足,则在每个缓存优先级队列中分别使用LRU算法选择文件,并分别求得这些文件的再次被访问权重,剔除权重最小的文件,最后根据该文件的优先级权重将其添加到相应的队列中。(2)设计了混合云环境下基于贝叶斯网络的缓存预取优化算法针对混合云环境下缓存系统中缺乏合适的缓存预取策略而导致空闲带宽利用率低和文件读取时间长等问题,本文通过分析现有缓存预取算法存在的预取动态性差、预取命中率低、带宽利用率不高等缺点,提出一种基于贝叶斯网络的缓存预取优化算法。首先基于贝叶斯网络预测下一个执行任务,并找出该任务要访问的所有数据文件,根据这些文件的成本收益和垃圾回收代价,选出待预取的文件。然后求得每个节点的负载,并结合当前空闲带宽、请求响应时间和公有云使用成本等因素选择负载较低的节点,最后根据当前空闲网络带宽和待预取文件大小将待预取文件添加到所选节点的缓存中。(3)对上述两个优化算法进行了实验验证与结论分析对上面所提出的两个优化算法进行实验并分析结果。首先验证了本文所提缓存替换算法的可行性,并将该算法与LFU、LRU和AD-LRU算法分别进行性能对比,结果表明本文算法在缓存命中率、延迟节约率和成本节约率方面具有一定优势。然后验证了本文所提缓存预取算法的可行性,同时将该算法与基于访问频率的预取算法和IPC算法分别进行性能对比,结果表明本文算法在预取命中率和时间节约率两方面优于其它两个对比算法。
其他文献
随着信息时代的高速发展,信息分类已经成为各行各业快速有效地获取有用信息不可缺少的步骤。模糊聚类分析作为研究分类问题的重要手段,应用于模块划分中,具有重要的理论意义
云计算是一种新兴的商业模式,利用分布式物理机集群整合计算资源和信息服务,使得云服务提供商能够向用户提供高性能的计算服务。随着云计算服务规模地拓展,支撑这些服务的物
伴随着社会的发展和进步,微生物污染时刻威胁着人体的健康,对微生物的抑菌研究得到了人们更多的关注。微生物对传统抗生素的药物依赖性越来越明显,因此迫切需要人们开发新的材料来替代传统药物应用于对微生物的抑菌研究。碳量子点是一种新型的荧光碳纳米材料,具有独特的荧光性能、低毒性、良好的生物相容性等优点得到了广泛关注。本文通过设计不同的材料作为前驱体合成了不同的荧光碳量子点,并将其成功应用于对微生物的光催化抑
我国现行房产税征收范围较窄,计税依据与房产价值脱节,难以全面发挥财产税应有的功能作用,不利于完善地方税体系建设。2011年,沪渝房产税改革试点在万众瞩目下拉开序幕,这是
重力补偿系统广泛应用于太空零重力环境的模拟,为飞行器、太空站等航天系统的在轨飞行之前提供可在地面进行相关动力学实验的零重力环境。因气动系统具有较高的功率质量比、
跳频信号由于保密性好、抗干扰性强等优良特性在军事通信领域得到了广泛应用,其侦查技术一直是研究的热点。近年来由于高带宽带来的高采样率和海量数据处理问题给跳频信号侦
金丝猴是国家一级保护动物,对其进行保护的必要性不言而喻,而行之有效的监测手段是保护金丝猴的重要措施之一。在金丝猴的监测中,数码影像技术由于具有非侵入性、无损伤性和
计算机辅助创新设计平台(Innovation Knowledge Cloud,IKC)是以创新理论(Theory of Inventive Problem Solving,TRIZ理论)为脉络,重组科学原理及专利等知识,为设计者提供创新
近十几年,随着智能计算领域的发展,智能优化算法发展异常迅速。对于陷入局部最优的情况,智能优化算法会选择尝试用不同的方式来做出改变,而且可以有效的在短时间内找到更优的
随着互联网的普及和流行,基于位置服务的社交应用逐渐发展。而基于全球定位系统(Global Positioning System,GPS)的定位已不足以满足室内环境下位置服务的需求,由此催生室内