基于OpenCL的图像模糊化算法优化研究

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:Biremoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)便于图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨OpenCL的图像对象在图像算法优化上的适用范围,尤其是其相对于更通用的基于全局内存加片上局部存储进行性能优化方法的优劣。实验结果表明图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时能带来较好的性能改善,其余情况采用全局内存加局部存储能获得更好性能。优化后的算法性能相对于精心实现的CPU版加速比为200-1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3-5。
其他文献
随着教育现代化进程步入新的阶段,更关注教学的面向人人问题.初中数学教学不仅事关学生思维能力、学习能力等发展,也将影响学生自信心的形成.面对学困生,教师应以理性的态度
  本文采用并行自适应有限元方法计算了不可压流体的三维圆柱绕流Benchmark。不可压流体圆柱绕流问题是不可压流体计算的一个重要的测试问题,我们采用高阶有限元离散、曲面
会议
  OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上,实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单
会议
  论文提出了一种适用于共享存储多处理器系统的光互连网络结构,通过增加系统连通性和远程通信带宽,它能有效降低系统的远程存储访问延迟,提升系统整体性能。采用密集波分复用
  DSP(数字信号处理器)由于其特殊的结构使得它不仅在传统的DSP领域有很好的表现,而且在高性能计算领域中针对特定应用通过算法优化更是性能出众。文章首先简单介绍了DSP结构
近几年,情境教学法在小学数学课堂上的应用达到了风靡的状态,它独有的特征,明显的作用令教师和学生都十分青睐.一时间,有关情境创设方法的研究也成为了热门的课题,教师开始追
为了帮助我国企业在跨国并购交易中更好地应对因企业社会责任表现所引起的跨国并购风险,平衡好经济利益诉求与社会责任的履行,论文以2009-2017年沪深A股上市公司109起成功的
  线弹性理论广泛应用于结构分析与工程设计,与之对应的线弹性问题亦为工程与科学计算研究的重要对象。本论文首先提出线弹性问题模型。然后,详细介绍一种适用于求解线弹性问
  归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL
会议
改革开放以来,中国外商直接投资和对外直接投资刺激了经济繁荣发展,但与此同时,中国水环境污染与经济发展的矛盾愈来愈突出,尤其是大量排放的工业废水,严重影响了中国的生态