论文部分内容阅读
网格以共享资源协同计算为目标将成为今后服务于各领域的基础设施,该设施的核心部件包括高性能计算设备、存储设备和贵重仪器等重要资源。目前,机群系统以其优越的可扩展性、可用性、可靠性和性价比在高性能计算机系统中占有主导地位。随着机群系统的大量部署及其上应用的不断增加,如何联合机群的计算力为分布式高性能计算等网格应用提供更大规模的计算平台,是高性能计算机体系结构研究的一个重要课题。面向网格应用的计算机是高性能计算机体系结构发展的重要方向之一。作为本文研究背景的IntraGRID是一种松散耦合的网格计算机结构,把分布的机群联合成为统一的机算机备,用于执行分布式高性能计算等网格应用。IntraGRID的耦合程度比机群松散,其上的并行算法需要做相应调整,例如通过划分通信密集和通信稀疏的进程组,合理调度进程从而更好的利用这种平台结构的特点。IntraGRID通信系统是IntraGRID的关键部件,为其上的分布式高性能计算环境提供底层通信协议,由机群内的机群通信协议和机群间的外部通信协议构成。IntraGRID通信系统使用统一的协议进行机群的内部和外部通信,能够有效的支持分布式并行计算环境。机群间通信协议由网格网关(Grid Gateway)实现,采用网关式的消息转发机制,该方式区别于MPICH-G2和PACX-MPI等网格使能的MPI计算环境采用外部通信机制,更适合在同构机群组成的IntraGRID中进行高效的消息传递。Grid Gateway连接机群互连网络和机群间的高速IP网络,通过转发不同网络上的消息实现机群间通信。Grid Gateway支持多结点转发,通过分流外部通信的消息能平衡机群间通信时节点的负载。本文介绍了IntraGRID及其通信系统的结构和特征,详细分析了Grid Gateway的实现机制,以及全局标识符、机群间通信语义、流量控制、多重路由机制、负载平衡等关键问题,并且给出了机群间通信协议的设计与实现,对机群间通信协议性能、机群间MPI性能进行评价和分析。