I/O Forwarding架构下的I/O优化技术研究

来源 :2013全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:bbchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
磁盘I/O的发展速度永远比不上CPU性能的提升,I/O常常成为数据处理的瓶颈.本文研究大规模超级并行计算系统基于I/OForwarding架构的I/O优化技术,在I/O中转节点设计并实现了一个基于主存+SSD的异构缓冲区,解决I/O中转节点入口网络带宽与出口网络带宽速率不匹配的矛盾.针对I/O中转节点多核多线程的特点对数据进行异步缓存、重组转发、并行压缩等,提高I/O中转节点到磁盘这段I/O路径的有效网络带宽.本文在天河平台实现I/O架构设计和测试,实验显示:通过I/O优化,可以加速数据在网络和磁盘上的传输.
其他文献
随着CFD数值模拟规模的越来越大,各个进程上的任务负载平衡程度已经成为影响CFD并行程序性能的重要因素之一.任务负载平衡的目的是使得各进程上计算量负载平衡和各进程间的通信开销最小,传统的负载平衡方法已不能满足CFD并行计算的需求,本文提出了基于遗传算法的CFD并行任务分配策略.此策略先通过组合把网格块分为与进程数相同的组,然后把这些组分配到相应的进程上,不同的组合和分配方案会有不同的负载平衡效果,
多层Web应用性能分析是实现资源动态分配和管理,保证多层Web应用性能的重要因素之一.传统的多层Web应用性能分析模型往往假设服务器部署在无性能互扰的服务器环境中且忽略了逻辑资源服务能力对多层Web应用性能的影响.随着云计算的发展,底层物理资源可以通过虚拟化方式形成虚拟资源并向外提供服务,为多层Web应用的性能保证提供了有效支撑.因此,如何考虑虚拟机性能互扰以及逻辑资源服务能力对多层Web应用性能
WCNS格式是中国自主发展的计算流体力学高阶精度格式,已在科学研究和工程中获得较多应用.该格式中的半节点重构计算是高精度CFD计算的性能热点.以5阶显式WCNS格式(WCNS-E-5)为例,在250万网格规模算例的非定常流场显式求解计算中,半节点重构计算约占了总时间的1/3.本文主要以WCNS-E-5格式为对象,结合WCNS-E-5半节点重构模板特点与集成众核平台的宽向量、高线程并发度等体系结构特
时序数据的可视化是理解宇宙结构形成与演化的重要手段.本文在对近百TB级的天文时序数据进行可视化时,针对数据的高动态范围色调映射问题,提出一种基于统计直方图的算法,实现了时序上色调连贯的可视化;同时,在插值重建演化过程时,提出一种根据前后关键幀预判插值幀可见性的剪裁算法,并对裁剪结果进行实时插值和投影,通过裁剪算法大幅降低计算量、存储和I/O,并通过希尔伯特哈希元胞算法进一步加速该过程.可视化结果表
模型验证作为一种形式化技术,已逐渐应用于软件系统可靠性验证.但对结构复杂的大规模软件的验证,由于状态空间爆炸往往会导致验证过程效率低甚至失败.本文针对ANSI-C软件程序的性质(正确性)验证问题,提出一种基于程序骨架的模型验证加速方法.该方法首先根据性质对源程序进行剪枝,并按照最大强连通分支压缩循环路径以抽取程序骨架,采用Hoare逻辑获取循环压缩节点的不变式,显著减小路径编码长度,将待验证性质转
模板计算是众多科学计算应用的基础.已有的模板计算性能优化研究多是针对理想应用场景及传统多核平台,难以直接用于指导真实应用问题在Intel Xeon Phi上的性能优化.本文以理想场景和实际CFD应用场景下基于7点模板计算的雅克比迭代为例,结合Intel集成众核(Many Integrated Cores,MIC)架构特点,研究了其众核性能优化方法.研究发现模板计算在不同应用场景的众核加速效果存在明
直线加速器中大规模带电粒子的追踪对高电流直线加速器的设计和优化至关重要.本文介绍了3维并行束流动力学模拟软件LOCUS3D的开发现状,讲述了软件中particle-in-cell方法的基本原理,开发了一种有效的并行3维泊松方程求解器.在阿贡国家实验室的BG/P集群上对软件进行了详细的测试,测试过程中模拟了109个粒子,并使用了8192个处理器.另外,在测试过程中发现了particle-in-cel
图像去噪作为一种数字图像相关应用的重要预处理步骤,在各领域已得到了广泛应用.目前有许多图像去噪算法被提出,其中非局部均值法是目前效果最好的去噪算法之一,但它的计算复杂度较大,非常耗时.为解决此问题,本文基于目前流行的OpenCL异构计算框架,使用GPU并行计算技术,将非局部均值算法做并行化处理.经测试,在GPU的加速下核心算法可获得600倍左右的加速,整体加速比也可以达到400倍左右,是近年来非局
近年来,功耗是处理器设计领域的关键问题之一.本文提出了一种针对多线程共享缓存通过过滤不必要缓存路(Way)访问来降低CPU动态功耗的缓存结构,称为Thread id Cache.通过设置和预先访问Thread id过滤器来排除每次访问发生时不同线程对组相联缓存同一组(Set)中其它线程私有数据块的访问.在128KB 8路Thread id Cache上对传统并行程序和大数据处理并行程序进行的测试表
面对大数据时代的来临,互联网和智能终端的快速应用使全球数据量爆发式增长,极大地推动了以高速路由器,超级计算和存储为核心的高性能超算中心(HPC)和数据中心市场的发展.本文着重讨论了10Gbit/s并行光传输模块的原理、850nm垂直腔面激光器(VCSEL)器件和光电探测器(PIN)、多通道阵列耦合装配技术、并行光模块信号完整性高速PCB设计技术、多通道并行光传输模块测试平台;最后对并行光传输模块种