一个结构网格并行CFD程序的单机性能优化

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:yyandmwm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  从单机性能优化角度对一个高阶精度结构网格CFD并行程序进行了优化.通过识别关键变量并对其进行常量参数化优化,使编译器能够实现更高级别的针对性优化;根据程序数据结构特点及访问模式,设计了分级数据缓存技术,使程序主要计算代码能够以更优的方式访问主要数据结构,提高访存空间局部性;进行了各种循环变换以优化访存性能.在国家超算长沙中心“Tianhe-1A”并行机上的测试结果表明,相对于采用Intel编译器最高优化级别的版本,对100万网格点二维翼型算例,串行程序性能提高约22.2%~28.9%,对1.12亿网格点三角翼算例,并行程序性能提高约13.9%~20.2%.
其他文献
  网格资源的异构性、动态性等特征使网格任务调度面临着诸多问题。针对传统可靠性评估模型仅考虑资源失效的问题,在考虑本地任务会抢占网格任务执行资源的情况下,引入任务执
本文作者对三组中度鼠患的定期班轮分别使用蒸熏法、多次投饵加器械灭鼠法的灭鼠效果进行了对比分析,认为对中度鼠患定期班轮的灭鼠可先使用多次投饵加器械灭鼠法,但对于食源
  针对区域水资源优化配置模型的多目标特点,在分析水资源系统构成及其特点的基础上,提出总体优化的量子多目标优化求解方法,以目标总体协调度来控制各单项目标之间的协调平衡
  现在MapReduce并行计算模型在不同场景下得到了广泛使用。由于网络IO传输速度通常远小于磁盘读取速度,所以Map任务的本地执行可以提高系统的吞吐率,减少作业执行时间。但
  OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速.本文通过
会议
  生物序列比对是生物信息学研究中最基本的研究方法。随着生物序列数据的快速增长,大批量序列比对变得极为耗时。针对这个问题,许多已有的高性能计算技术开始用于加速序列
  传统的K-means 算法局部搜索能力强,但是对初始化比较敏感,并且容易陷入局部最优值,这些缺陷严重限制了它的应用范围。针对目前普遍所存在的问题,本文提出一种改进的基于量子
  鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,本文设计了一款异构多核图形处理器HMGPU-9.HMGPU-9将9个具有不同功能和不同结构的微处理器核、大量复杂专用电路
  在OGRE 3D的场景管理器模块下增加渲染队列副本,采用基于Boost线程库的相关信号量和函数构建OGRE 3D多线程模型,建立前后台读写缓冲并形成流水机制,实现OGRE 3D在多核平
  Conventional debugging techniques allow users to control program execution only in the forward direction,forcing developers to apply time-consuming methods
会议