实时系统工作流的能量感知容错算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:liongliong437
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学计算需求量的爆发式增长,是高性能计算机(HPC)发展的直接驱动力。计算能力的提升,能够极大推动各个科学领域研究成果的重大突破,但同时也为系统设计提出了更多的挑战。本论文重点研究了高性能计算领域现阶段亟待解决的两个主要难题:容错和能耗。为满足科学计算所需的算力,近年来超级计算机的计算单元数量成倍增长,这就直接导致了错误频率的升高。显然,在如此庞大的计算系统中引入容错机制是必须的,否则一个需要在大量计算单元上长时间运行的大型程序,可能永远都无法执行完成。另一方面,出于预算限制与环境保护的考虑,我们必须要降低系统能耗。尤其因为容错机制引入的时间与空间冗余,也导致了额外的能量消耗。同时,节能技术通常会引起系统故障率的升高。因此,在降低能耗的同时,我们必须要考虑到系统性能与可靠性的降级。在此研究背景下,我们通过调度算法的设计,权衡系统执行时间、容错、能耗等多个因素,以解决大规模高性能计算系统中的若干优化问题,具体来说:1.本论文对工作流任务在大规模并行系统上的调度和检查点策略(时间冗余)进行研究,解决应用的容错与调度长度最小化的问题。该问题的解决方案包括两个阶段:决定任务在可用资源上的调度;决定在哪个任务执行之后进行检查点操作。本文提出通过限制交叉依赖,防止故障在不同处理器间迁移的思路,首先为一类特殊的工作流任务设计了最优解决方案,然后为一般的工作流任务提出了通用的启发式算法。1)针对特殊结构的工作流任务(M-SPGs),在任务调度阶段,我们利用它的递归定义结构,提出了递归的比例映射调度算法,该算法将各个子图以超链集进行调度。通过在每个超链的退出任务后设置检查点,得到实现交叉依赖规避的最小集合。然后本文提出了“任务检查点”的概念,在此基础上,设计提出了动态规划算法来决定每个超链中最优的检查点任务子集。2)针对任意结构的工作流任务,在任务调度阶段,我们对于经典的调度算法HEFT和MINMIN进行了优化设计,用以减少交叉依赖。然后在此基础上设计了多种与之匹配的检查点策略,分别提出了针对不同应用场景的完善与宽松的解决方案。第一次实现了针对于任意的任务图类型,做到任意数量的系统故障容错的通用解决方案。为了对算法的性能进行评估,本文开发了离散事件模拟器,并将我们的算法与:在每个任务执行结束后都进行检查点操作(CKPTALL,该方法是现在在实际大型系统中广泛应用的容错方案);和不做任何容错操作(CKPTNONE,该方法在错误率忽略不计的情况下是最优的)进行比较。大量的仿真实验结果表明,我们的算法在绝大多数错误场景下,都实现了更优的容错表现。相比于第一种方案,我们的算法拥有更低的容错代价;相比于后者,我们的算法对于高频率的故障更具鲁棒性。从理论层面,本文第一次证明了计算CKPTNONE策略调度长度的#P-完备性。2.本文对周期性独立任务集的调度和备份策略(空间冗余)进行研究,解决在实时性与可靠性约束下,能耗最小化的问题。该问题的解决方案包括三个阶段:决定每个任务的副本设置;决定每个副本到处理器的映射与静态调度;根据任务实际执行时间,决定动态更新调度。这三个阶段都以最小化同一任务的不同副本之间的重合度,进而降低能耗为目标。我们首先在同构实时系统上研究三目标制约关系,然后拓展到异构实时系统中。1)针对同构实时系统,在备份设置阶段,本文采用了更符合实际执行场景的能耗计算公式;在映射阶段,本文提出了分层WFD的思路,有利于将主副本分散到各个处理器与负载均衡;针对动态调度阶段,我们基于在节点间调换顺序、预取可用的主副本和利用处理器空闲三个基本思路,提出了多种优化方案,极大限度地减少副本间的重合度。2)针对异构实时系统,因为异构性使得原问题更加复杂,在将任务分配到处理器之前,我们不能够确定为达到其可靠性阀值所需的副本数量。本文针对各个阶段根据不同准则,提出了多种启发式算法。本文还开发了离散事件模拟器,基于广泛的执行场景和参数设置,进行了大量仿真实验验证提出的技术在可靠性保证与节能方面的有效性。从理论层面,为了定量地评估我们的算法,本文提出理论能耗下界,结果表明我们效率最好的启发式算法始终接近下界。同时,本文第一次理论证明了该调度问题特定实例的复杂度。
其他文献
奇异性核物理是核物理的前沿研究领域之一,在过去十年间,超核的研究在实验和理论方面都发展得十分迅速,实验上发现了多个Λ超核和(?)超核,平均场模型、壳模型等都对这些超核进行了研究,并能在一定程度上符合实验结果。同时,关于K核的研究也取得了一定的进展,实验上证实存在束缚态的“K-pp”结构。人们希望通过研究这些奇异核来获得关于超子(或K-介子)—核子以及超子(或K-介子)—超子(或K-介子)相互作用的
量子光学是现代物理学中最重要的学科之一。其中,量子关联是一种非常有价值的非经典效应,对量子光学具有重要的科学意义。量子关联光束由于降低了量子噪声,可以显著改善系统的性能。因此,量子关联光束被广泛应用于量子通讯和量子精密测量领域。近年来,四波混频过程被证明是一种产生量子关联光束的有效手段。这种四波混频过程在产生量子关联光束上有许多优点。首先,由于产生的量子关联光束具有空间多模的性质,因此可以在空间域
【本刊讯】为进一步提升发展改革系统新闻宣传和舆论引导工作的能力和水平,近日,国家发展改革委政研室在京举办全国发展改革系统新闻宣传和舆论引导工作业务骨干培训班。国家发展改革委党组成员、副主任宁吉喆为培训班作重要讲话。各省(区、市)、新疆生产建设兵团以及计划单列市、副省级省会城市发展改革委分管新闻舆论工作负责人和新闻舆论业务骨干,委内各司局有关同志和委属媒体负责同志,共150余人参加培训。
期刊
多体系统中粒子的合作行为,以及若干个系统之间的关联一直是物理学中非常重要的问题。例如在极低温度下,原子气体通过粒子间的相互作用可以形成玻色-爱因斯坦凝聚。相比之下,固体材料中由电子-空穴-光子耦合形成的极化激元拥有比普通原子小得多的有效质量,因此可以在更高温度下形成激子-极化激元凝聚体。同时,多种该类型凝聚体之间的关联行为已经被大量实验所证实。然而目前针对电子-空穴-光子体系中多体关联和集体行为的
Ⅲ-Ⅴ族氮相关化合物多元材料体系,如氮化镓(GaN)、氮化铟(InN)和氮化铝(AlN)以及与其相关的三元和四元合金化合物(InGaN、InAlN、GaNAs、InGaNAs、AlGaInN)等具有优良的光电性能,可通过组分调节实现带隙覆盖从近红外到紫外的主要太阳光谱波段,这使其在发光器件、太阳电池领域具有广阔的应用前景。本论文主要采用光致发光光谱、时间分辨荧光,泵浦探测等多种光谱技术对InGaN
物质结构和声子-电子耦合机制的研究以及相图的构建在凝聚态物理和材料科学研究领域具有基础的物理意义,结构特征直接决定了材料所具备的不同功能性和潜在应用。近年来,随着信息技术、微电子材料和半导体技术的飞速发展,“摩尔定律”极限引发了半导体和信息材料研究领域遭遇一系列瓶颈问题,这要求现在的半导体及相关新材料的研究务须实现纳米尺寸低维化、光电/压电转换效率高、机械性能优异、环境适应性强、化学性质稳定和时间
进入2021年,建筑业已开启高质量发展新篇章。在国际环境发生深刻变化的同时,作为国民经济发展的支柱行业之一,传统发展模式难以适应新时代发展的要求,尤其是在双碳背景之下,作为碳排放大户,建筑业亟待转型升级。国家陆续出台了一系列政策标准,从新技术、新能源、新材料和信息化等科技应用和发展方面,推动建筑行业开启新一轮的发展。建筑产业唯有顺势而为,主动拥抱变革,在双碳背景下,形成以绿色化为发展理念,以
期刊
昆虫是地球上种类最多、数量最大的动物类群,而且具有惊人的繁殖能力。昆虫生殖腺(Gonads)作为重要的内生殖器,分泌蛋白种类繁多且功能多样,不仅影响雄性昆虫的生殖能力,也影响雌性昆虫的生理过程和生殖行为。鳞翅目是昆虫纲中仅次于鞘翅目的第二大目,其中家蚕(Bombyx mori)由于其良好的研究背景以及重要的经济意义而成为鳞翅目模式昆虫。以家蚕为对象来研究生殖腺分泌蛋白对交配繁殖的作用,有助于了解昆
随着计算机技术的迅速发展,计算模拟已成为研究物理学、化学、生物学等诸多学科的重要手段。在生命科学中,针对生物大分子、疾病机理、药物研发方面的实验工作量通常过于庞大,而计算模拟能很好的弥补这一缺点。本文通过结合Amber的焓计算(MM/PBSA),和本课题组发展的熵计算(IE),通过丙氨酸扫描(AS)来确定蛋白-蛋白相互作用界面的热点残基。HLA(Human Leukocyte Antigen)是人