基于GPU的图像和视频算法加速

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:AceAcer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,GPU(Graphic Processing Unit)并行加速技术成为解决高复杂度计算问题的重要手段,特别是2007年NVIDIA公司的CUDA(Compute Unified Device Architecture)平台推出后,对多个领域的复杂计算问题取得了明显的加速效果。与多核CPU相比,GPU在指令集、缓存机制以及控制逻辑上相对简单,更适合细粒度的大规模并行处理。另一方面,随着高清电视等应用的普及,视频处理与压缩面临着新的高计算复杂度等问题,利用GPU加速这些计算成为实现实时视频处理与压缩的重要手段。针对GPU体系结构特点,研究典型视频处理与压缩算法的并行化方法,具有较高的应用价值。   本文针对图像插值和运动估计两种典型算法,研究了GPU加速所面临的数据依赖性、并行粒度选取、GPU内存数据组织、CPU与GPU间的带宽瓶颈等问题。主要工作包括以下两个方面:   (1)提出和实现了基于GPU的Tanner图图像插值的快速与并行算法。基于Tanner图的算法是一种高性能的图像插值算法,但存在计算复杂度高、难以实现高清实时处理的问题。本文通过挖掘算法的冗余计算,并结合GPU并行架构的特点,实现了图像块和像素两级并行处理。同时,在Tanner图的迭代过程中引入双缓冲机制,从而避免了两次迭代间的重复数据拷贝。实验表明,基于GPU的并行算法取得了较高的加速比,同时保持了算法的原有性能。   (2)针对混合编码框架中的运动估计模块,实现了基于GPU的并行算法。运动估计一直是混合编码框架中的计算“热点”(hotspot),由于存在宏块间的运动向量预测依赖,给并行计算带来一定困难。本文在宏块级和SAD级实现了并行处理,同时利用时间方向的运动向量预测降低相邻宏块间的计算依赖,进一步提高了算法的并行度。在GPU平台上的实验表明该并行算法对全搜索运动估计具有显著的加速效果。   本文针对图像插值和运动估计两种典型算法提出的GPU并行实现方法,对于其它类似算法的并行化也具有借鉴意义。
其他文献
设A是一个字母表。如果语言X,Y(C)A*满足XY=YX,则称X,Y是可交换的。如果语言X,Y(C)A*满足XY(C)YX或YX(C)XY,则称X,Y是部分可交换的。目前已知:在自由半群A*上,若x,y∈A+,xy=yx,则存在t
生物信息学是当今世界非常热门的课题,近年来,人们注重对生物信息的数据整合和应用开发,使得生物学家能方便的进行生物信息研究。在和所内专家交流后发现:首先,面对庞大繁杂的生物
二十世纪七十年代,E.F.Codd提出了数据库的关系模型,开始了数据库关系方法和关系数据理论的研究,并逐渐应用到各个领域。这使得人们借助数据库对海量数据进行处理以及查询成
生物信息学是一门新兴学科,它综合运用生物学、统计学和计算机科学的各种工具和方法,来挖掘海量的生物学数据背后丰富的内涵。中国科学院微生物研究所网络信息中心多年来一直开
无论是在计算机领域还是更为宽泛的数据处理领域中,数据信息的采集、处理、存储以及传输之间的速度“趋异问题”普遍存在。本文提出使用“暂存技术”解决此类趋异问题。文章将
煤炭安全生产涉及到对煤矿生产现场的人、设备、生产环境各方面的监测,随着矿井自动化技术的提高,大多矿井已建立了多种自动化系统,如监测井下生产环境(瓦斯、CO、温度等)的瓦斯安
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。G.Lakeoff和M.Johnson认为,隐喻不仅仅是一种语言修辞手段而且是
随着工艺集成度的增大和芯片主频的提高,功耗已经成为限制处理器性能提高的主要因素。过高的功耗影响了芯片的可靠性和寿命,增加了冷却成本,限制了部分高性能处理器应用于移动终
传统的IT系统管理只是强调对IT基础设施的监控管理,而未考虑与这些设施关联的上层服务。基于服务的管理方式将上层服务与底层基础设施关联起来,确保在服务的关键流程被中断或用
群是近年来即时通信平台中日益流行的概念,她比普通的好友分组具有更多的含义,更丰富的功能。用户可以在群内相互交流意见,共享资源,开展集体活动,协同办公。服务器运营商可以利用