基于OpenCL的均值平移算法在多个众核平台的性能优化研究

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:zhangsiqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速.本文通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,一方面体会不同优化方法的优劣,在优劣的相互转化中,寻求最优的解决方案.实验表明,优化后的算法在AMD GPU平台、NVIDIA CUDA平台和APU平台分别达到了9.68、5.74和1.27倍加速,相比串行程序达到79.73、93.88和2.22倍加速,前两个平台相比CUDA版本的OpenCV程序达到1.27和1.24倍加速.
其他文献
提出一种面向大规模同时多线程处理器可扩展高速缓存的动态划分方法.将文献所提的机制扩展到多体高速缓存中.线程的内存访问特征变化迅速,因此在运行时收集同时多线程的缺失率特征,依此特征在线程间划分高速缓存.实验结果显示,相对于非划分的具有标准LRU替换策略的高速缓存,本文提出的划分方法能够IPC达18.94%.
在近几年中,研究人员已经开始越来越重视集群中的功率消耗控制,众多研究人员都致力于功率消耗的降低与节约,然而能耗的管理比单纯的能耗的节约昱得更加的重要。在本文中,将功率看成是可以管理和调度的资源之一。本文设计与实现了两种应用于HDFS、有效控制与预测功率的算法和策略,结合给每个节点设置功率预算的方法,实现功率的非均衡的动态分配以达到控制整个集群功率消耗,用以限制能耗消耗。此外,本文还通过逐步线性回归
现有GPU加速的高性能Linpack 基准测试程序(HPL)一般采用基于实际运算能力的动态负载均衡算法来实现.然而该算法在单节点多GPU的平台上表现不佳,其原因是单节点多GPU平台上单个GPU计算量小,并且GPU与CPU 的总性能差距较大.为此,本文提出了经验指导的动态负载均衡算法以及多GPU 自适应负载均衡算法,并且在单节点多GPU 平台上进行验证,对比现有基于NVIDIA 费米GPU 的HPL
在蛋白质三级结构预测领域,基于蛋白质采样信息的结构预测方法是一种应用比较成功的方法,但是随着蛋白质数据库的增大,对计算能力的需求也越来越高,限制了这种方法的使用。随着FPGA芯片资源和计算能力的不断提高,基于FPGA芯片的硬件加速器已经成为加速蛋白质三级结构预测算法的理想平台。本文在分析蛋白质三级结构预测程序BackboneDBN的计算特征的基础上,设计并实现了一个基于FPGA平台的算法加速器,通
虽然云计算在科学计算和互联网应用上已经取得了很大的收益,但是由于规模庞大,不论是其拥者还是用户都将节省开销作为首要目标。然而,相关工作大多只考虑了拥有者的运营开销,而没有探讨云用户的费用。本文创新性地利用Amdahl定律提出了云计算用户的平均费用模型,通过该模型从本质上揭示了云计算中用户费用与租用的服务器数目、任务到达速率、任务的并行性以及服务器处理能力之间定量关系,对用户租用云计算系统服务器的方
分析了云计算环境中虚拟机映像存储系统所面临的问题和挑战,设计并实现了一种系统层的虚拟磁盘协作式持久缓存CoCache,能够充分利用各个节点缓存的服务能力,使其暂存的虚拟机映像数据能够为其他节点提供读取服务.CoCache 实现了物理节点间P2P 模式数据传输,达到了扩展存储系统数据服务能力的目的.CoCache 实现层次位于Linux 内核态,可以支持任何的VMM.实验结果显示该协作式持久缓存可以
以底层网络资源利用效率最优为目标,在底层网络不需要支持路径分裂的情况下,提出了一种新的基于快速收敛蚁群优化的虚拟网络映射算法。通过引入高斯过程模型,加快蚁群优化算法的收敛速度,满足实际应用的实时性要求;并且以映射开销作为适应度函数,最终解决虚拟网络映射问题。实验结果表明,与已有研究成果相比,在满足相同准确度的前提下,该算法显著地降低了算法的求解时间。
传统RBF神经网络在网络流量预测过程中存在收敛速度慢、极易出现局部最优等缺点,从而导致预测精度低。本文采用蚁群算法优化RBF神经网络参数来进行网络流量预测。利用蚁群优化算法来训练RBF神经网络的基函数宽度和中心,简化网络结构,加快收敛速度,防止局部最优的出现,改善RBF神经网络的泛化能力。实验结果表明,相对于GA-RBF以及PSO-RBF流量预测模型,本文模型预测准确度更高,能够很好地描述网络流的
本文提出了一种SSD内部多通道之间的写操作调度策略.该策略记录每个通道的数据写入量,每次数据刷新选择数据写入量最小的通道.DRAM被划分为两部分,分别作为读缓存和写缓存,写操作将数据写入写缓存后直接返回,写缓存数据量达到阈值上限后触发数据刷新操作,将部分数据写入SSD某个通道与此同时,采用读优先策略,在数据写入某个通道过程中如果收到指向该通道的读请求,则读请求抢占该通道使用权,实验结果表明,与传统
以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.基于nVidia的GTX280系列GPU进行测试,测试数据显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法可以达到单双精度浮点效率均有1倍以上的提高,并突破了该系列GPU在spMV