基于云计算的科学工作流数据存储策略研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:xx19890701
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在天气预测、载人航天、基因生物计算、高能物理数据分析、生命科学计算、地震预测等复杂科研领域,问题求解越来越需要不同领域、不同学科、不同地域的科学家紧密合作才能得以有效解决,而科学工作流为这种异地科学家进行科研协作提供了有效手段。科学工作流被用来自动化科学任务的编排、执行、监控、以及追踪。传统上,科学工作流被部署在超级计算机、分布式集群系统以及网格系统等复杂且昂贵的分布式计算机系统上。随着问题求解规模和复杂性递增,一个大型复杂科学工作流通常包含成千上万个科学计算任务,这些任务本身不但涉及大规模的数据处理,任务间往往蕴含着海量的数据传输,因此,如何确保科学工作流在分布式计算环境中的高效执行一直是科学计算领域和分布计算领域共同面临的热点和难点问题。近来,随着分布计算技术的不断发展,在并行计算和网格计算等计算模式之后,又一种新的计算模型---云计算模型得到了计算机工业界和学术界的广泛关注。云计算技术是一种共享基础架构的方法,它通过虚拟技术将分布在不同地理位置的计算资源和存储资源虚拟成一个资源池,基于这种方式,云计算中心可以为科学工作流的执行提供灵活可伸缩、动态可扩展的计算资源和海量存储资源,而且成本低廉。尽管云计算技术高效、灵活、可定制的特点为解决科学工作流运行过程中遇到的难题提供了一种新的思路,但是云环境中跨数据中心科学工作流的高效执行仍然面临数据交互量大的问题。针对该问题,本文通过研究高效的数据放置和存储策略来有效减少任务间数据传输量,进而达到优化科学工作流执行的目的,具体工作如下:(1)、提出了一种改进的基于聚类的数据存储策略方法。传统基于聚类的数据放置策略方法尽管可以有效减少跨数据中心之间的数据移动次数,但是该方法并没有考虑科学工作流中数据集大小,一旦移动次数较少同时所移动的数据规模较大,总的数据传输开销不一定降低。针对这些不足,本文在原有方法基础上增加了对数据集大小的考虑,并从数据相关、任务调度、中间数据集放置三个方面对传统算法进行了优化和改进,实验表明,改进后的算法可以有效减少数据的总移动开销。(2)、提出了一种基于数据相关的两阶段高效数据放置和任务调度方法。本文在上述工作基础上,同时建立了一种基于数据相关的两阶段高效数据放置策略和任务调度策略:即在工作流建立阶段根据数据依赖关系图把关系紧密型数据集尽可能放置到同一数据中心;而后任务调度策略在运行阶段将任务调度到数据依赖最大的数据中心执行,并将新产生数据集放置到相关度最高的数据中心。实验表明,该方法能有效减少跨数据中心科学工作流执行时的数据传输量,从而提升了科学工作流执行效率以及减少了云资源租赁费用。
其他文献
物探方法由于高效、无损等优点,广泛应用于工程地基勘察中。在实际工作中,单一的物探方法虽各有所长,但趋于片面,难以确定异常的物质成因,从而达不到预期的应用效果。该文以
2007年美国的次贷危机迅速演变成金融海啸席卷全球,导致各国股市动荡股价暴跌,而像我国这类新兴国家的股票市场更是暴跌了70%。反观发达国家,跌幅超过30%的寥寥无几,特别是次贷危
本文简述了液晶显示屏的基本结构和偏光板所用塑料薄膜的种类、性能及其研发新进展。介绍了将聚酰亚胺及其薄膜材料应用于图像显示领域的重要性。阐明强化液晶显示器及其偏光
目的比较功能性消化不良患者与健康志愿者胃粘膜胃动素、降钙素基因相关肽水平,探讨胃动素、降钙素基因相关肽在功能性消化不良发病中的作用。对象和方法选取2011年7月至2012
西藏地区小学生汉语教学是我国对内汉语教学的一个重要组成部分,属于第二语言教学范畴。汉语课程的性质首要是工具性,同时兼顾人文性。汉语词汇教学作为汉语教学的一部分,在第二
随着工业和科学的发展,环境监测的内容也由工业污染源的监测,逐步发展到对大环境的监测。虽然环境监测越来越受到人们的重视,但是新技术、新方法的加入仍然处在研究发展阶段,主要
研究背景和目的心房颤动成为心血管疾病中的一大流行病。非瓣膜性心房颤动发生率较高,非瓣膜性心房颤动易并发脑栓塞,呈现高致残率、高病死率的趋势。临床工作中对于非瓣膜性房
目的:原发性肾病综合征(primary nephrotic syndrome,PNS)是儿童常见的肾小球疾病。根据患儿对糖皮质激素治疗的反应,PNS被分为激素敏感型肾病综合征(steroid-sensitive nephrotic
所谓"重复供述"是指通过非法讯问获取了犯罪嫌疑人的供述后又通过合法讯问获取的供述。域外国家和地区有关判例在判断重复供述可采性时均以前次的非法取证行为和重复供述之间
西津渡历史街区是名城镇江的重要文化遗产之一 ,但过去对它的认识还存在若干缺憾和误区。本文通过考古与史料的双重发掘 ,着重揭示西津渡玉山大码头、昭关小码头、千年古街、