论文部分内容阅读
随着社会生产力的持续进步,人们对高性能计算的需求与日俱增,而机群已经牢牢地占据了HPC体系结构的主流地位.网络攻防技术的激烈转换,使得通过Internet共享资源的计算中心所面临的安全形式格外严峻.现有技术与解决方案已无法满足对机群管理和监控的错综复杂的需求.从可信计算的核心理念出发,针对大规模分布式应用的特点做相应扩展,我们对可信的作业管理进行了初步的探索,并以当前技术为基础设计与实现了一套符合可信赖性特征的作业管理系统.
本文首先对当前的各种系统的特点和不足进行对比分析;针对曙光4000A机群的实际应用情况,提出了曙光5000必须解决的问题,并由此出发设计了曙光作业管理系统DCJM.作为曙光机群应用服务器DCAS的插件,DCJM整合了开源软件SGE,并以符合GCF标准的DRMAA技术对作业进行交互控制,提高了底层系统的可移植性和可扩展性;通过AJAX技术,由B/S方式达到了Web 2.0时代的桌面C/S系统的实时管理模式;所有的系统功能均被Web Service封装成为能以服务的方式调用的组件,在异构计算环境中实现了最大限度的资源共享.
本文的主要创新在于:(1)在加密通讯和权限认证基础上,引入了多层次的高可靠保证措施,增强了系统的安全性和可靠性,以保证作业运行的全生命周期可信.(2)改进了SGE自身的调度部分,引入了记帐机制和历史一预测分析机制.通过Benchmark的性能测试,从实践角度证明了DCJM能够比与最常用的OpenPBS系统更高效的管理和利用机群资源.(3)应用数学模型工具,对DCJM和OpenPBS系统可信度的各部分指标进行了建模分析和数值求解,从理论上证明了DCJM系统确实达到了高可信度,是具有可信赖性特征的作业管理系统.最后,对本文的工作做了总结,指明了作者的贡献,并对下一步的研究做了展望.