MPI程序中使用三值光学计算机的技术

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:wolfseason
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文提出了在MPI并行程序中使用三值光学计算机(TOC)的技术.在这个技术中,TOC节点作为服务端,运行等待连接的进程:CPU上运行的MPI进程作为客户端,使用有SHDX前缀的一类扩充指令来请求同TOC的连接.TOC和CPU连接之后,MPI进程将运算请求和数据在一次通信中发送给TOC节点,TOC发挥自身特长来处理数据.并将计算结果回送MPI进程.这个过程实现了TOC与CPU的协同工作.实验表明了该技术的正确性.
其他文献
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,不具有足够的高性能计算能力。本研究将具有超强并行计算能力的GPU与云计算进行融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式,对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计
深度包检测(Deep Packet Inspection,DPI)是一种先进的包过滤技术,广泛应用于防火墙中。基于正则表达式的模式匹配算法已成为实现DPI重要方法之一,传统的正则表达式匹配算法的时间复杂度较高,不能实时进行网络安全的防护。为了提高正则表达式匹配算法的实时性,本文提出一种基于分布式存储的正则表达式匹配并行算法,该算法通过对数据进行步长计数,采用分布式存储,实现并行处理。通过实验分析,
云计算是一种新兴的计算模式,倡导一切皆服务.云计算由于能够共享分布在世界各地的计算资源,在大规模计算和数据存储中越来越受到重视.云计算是当前IT工业界、学术界研究的热点领域,云环境中的资源可用性已成为云计算不可忽视的问题.对于云计算,当处理器的处理速度不同,不是一直可用于计算时,可用性成为设计和发展云计算系统的关键需求.根据并行任务图的结构特点,讨论了影响并行任务可用性需求的关键因素,给出一种可用
近年来,功耗是处理器设计领域的关键问题之一.由于片上缓存占有了越来越多的CPU 芯片面积和功耗,本文提出了通过过滤不必要的缓存路访问来降低缓存动态功耗的方法.方法包括采用无效访问过滤器(Invalid Filter)来消除对含无效数据块的缓存路的访问;采用指令数据访问过滤器(I/D Filter)来消除对与访问类型(指令或数据)不匹配的数据块所在的缓存路的访问;以及采用tag低位过滤器(Tag-2
指令调度优化是编译器代码生成优化中最主要的部分之一。针对一些精简结构处理器核的特点,文中提出了一种基于多版本技术的指令调度优化方法,该方法根据对程序执行过程中的别名分析结果选择高效或者保守的指令调度版本去执行,克服了精简结构处理器在进行指令调度时静态信息获取不足的问题。
云计算是一种新型的计算模式,它将因特网上的数据、应用作为服务通过网络提供给用户。同时,云计算也是一种新的基础架构管理方法。它能够把大量高度虚拟化的资源组成一个庞大的资源池,统一管理。提供基础设施即服务。如何有效地管理虚拟资源,最大化使用率已成为当前云计算研究的热点。针对这一问题,本文总结了云计算平台(CCP,Cloud Computing Platform)的基础架构,讨论了几种流行CCP的系统架
深度包检测(Deep Pacekt Inspcetion,DPI)是网络入侵检测与防御系统(Network Intruison Detcetion and Prevention System,NIDS/NIPS)中的关键技术,如何快速而又准确的识别有威胁的网络安全事件成为近年来的研究热点,本文提出了一种基于CPU+GPU异构平台下的深度包检测系统,充分利用GPU的高性能的并行计算能力和高存储器带宽
All_to_All 操作是一种重要的集合操作。本文通过实验研究了两种典型的All_to_All 算法在Infibinband 网络中的性能,发现这些算法在传输大消息时带宽利用率仅有30%-70%。分析发现这是由于网络中产生了严重的拥塞造成的。本文尝试通过将大消息拆分成小消息、调度小消息的发送来减少网络拥塞。实验结果表明该优化算法的带宽利用率可以达到80%。
本文首先介绍了Kirchhoff 叠前时间偏移的原理,然后描述了该方法的物理实现过程。由于方法本身计算量巨大所以要加强该方法的并行算法研究,文中详细介绍了输入道并行方法、输出道并行方法和共炮检距并行方法,以地震数据网络流量和传输速率为关键因素衡量三种方法的优缺点,并指出共炮检距并行方法代表该领域发展的方向,最后用一些实际应用数据对三种方法进行了综合评价。
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主