可信的作业管理系统——DCJM

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:taizijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会生产力的持续进步,人们对高性能计算的需求与日俱增,而机群已经牢牢地占据了HPC体系结构的主流地位.网络攻防技术的激烈转换,使得通过Internet共享资源的计算中心所面临的安全形式格外严峻.现有技术与解决方案已无法满足对机群管理和监控的错综复杂的需求.从可信计算的核心理念出发,针对大规模分布式应用的特点做相应扩展,我们对可信的作业管理进行了初步的探索,并以当前技术为基础设计与实现了一套符合可信赖性特征的作业管理系统. 本文首先对当前的各种系统的特点和不足进行对比分析;针对曙光4000A机群的实际应用情况,提出了曙光5000必须解决的问题,并由此出发设计了曙光作业管理系统DCJM.作为曙光机群应用服务器DCAS的插件,DCJM整合了开源软件SGE,并以符合GCF标准的DRMAA技术对作业进行交互控制,提高了底层系统的可移植性和可扩展性;通过AJAX技术,由B/S方式达到了Web 2.0时代的桌面C/S系统的实时管理模式;所有的系统功能均被Web Service封装成为能以服务的方式调用的组件,在异构计算环境中实现了最大限度的资源共享. 本文的主要创新在于:(1)在加密通讯和权限认证基础上,引入了多层次的高可靠保证措施,增强了系统的安全性和可靠性,以保证作业运行的全生命周期可信.(2)改进了SGE自身的调度部分,引入了记帐机制和历史一预测分析机制.通过Benchmark的性能测试,从实践角度证明了DCJM能够比与最常用的OpenPBS系统更高效的管理和利用机群资源.(3)应用数学模型工具,对DCJM和OpenPBS系统可信度的各部分指标进行了建模分析和数值求解,从理论上证明了DCJM系统确实达到了高可信度,是具有可信赖性特征的作业管理系统.最后,对本文的工作做了总结,指明了作者的贡献,并对下一步的研究做了展望.
其他文献
随着半导体工艺技术的不断进步,芯片的设计规模越来越大,特别是进入深亚微米以后,集成电路完全可以将一个完整的电子系统在单块芯片上实现,于是便出现了片上系统(System on C
随着集成电路工艺特征尺寸的不断减小,以及大型计算机和消费类电子产品对于高性能和低功耗的不断需求,超大规模集成电路(VLSI)设计向着高速、低功耗的方向努力.这种情况下,芯
资源空间模型是知识网格理论的核心模型之一,用于规范、管理和共享资源,是一种基于分类语义的数据模型.资源使用机制是主要阐述如何在资源空间中管理和使用资源的机制. 本
学位
消防监督检查是指各级消防监督机构依法对建筑物遵守消防法律、法规情况进行的监督检查,对违反消防法律、法规的行为,责令改正,并依法实施处罚.通过消防监督检查,消防监督机
由于存储器和处理器速度差距的日益增大,访存延迟已经成为限制程序性能的主要瓶颈.数据预取通过提前将数据取入缓存,可以掩盖访存延迟,对于提高程序性能有很大的帮助.本文以O
数值型数据是信息领域中非常重要的数据,广泛应用于商业经济、地理环境、社会资源以及科学实验等各个领域。科学数据库广泛存在数值型数据,主要集中在中国自然资源数据库,覆盖水
学位
流感是人类历史上最重要的流行病之一,给人类牛命健康带来了很大的灾难,尤其2003年以来高致病性禽流感H5N1的频繁爆发使得流感病毒的研究再次成为热点.流感测序序列日益增加,
动态电压调度(Dynamic Voltage Scaling,DVS)是一种有效的分布式嵌入式系统的系统级低功耗技术.这种技术通过降低系统中的处理部件的频率和电压,使得处理部件的功率显著下降,
为了解决软件复杂性危机,学术界和产业界提出了自主计算的概念.自主计算的核心是使计算机系统具有自管理能力,包括自配置、自优化、自恢复和自保护.虽然自主计算描述了美好的