H.264视频解码器宏块级并行实现与调度优化策略

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lvz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频分辨率正朝超高清方向发展,分辨率的提高可以提供更好的用户体验,但也使得编解码过程中的计算复杂度急剧增加,对其实时处理带来巨大挑战。新兴的CPU+GPU异构多核处理平台具有丰富的并行处理资源,如何利用多核处理器进行视频解码的并行加速,提高视频解码的吞吐率、减少延时是目前学术界和工业界的研究热点。近年来国内外对以H.264/AVC为代表的混合框架视频编解码器的并行优化研究工作有很多,其中很重要的一个策略是宏块级的并行技术,利用GPU的硬件特性来挖掘和实现解码器中宏块潜在的并行,提高解码器的效率,对于满足当今高分辨率实时解码的需求是具有很重要的意义的。在分析宏块级数据依赖以及并行空间的基础上,提出了基于GPU的H.264宏块级并行优化方案。为了解决已有基于GPU的像素级并行解码优化方法存在的较大的数据传输开销问题,提出的方案以宏块为粒度结合2D-Wave的思想和H.264解码器各模块的特点实现并行解码,让GPU完成更多的解码模块,实现数据复用,有效隐藏传输开销,提高解码效率。考虑到解码过程中由于宏块之间的计算开销各不相同,存在线程同步开销,提出了2D-Wave和宏块解码计算复杂度预测相结合的并行策略来减少线程同步开销。参考已有的对帧级解码复杂度预测的相关研究方法,通过分析影响宏块解码各个模块计算复杂度的因子,提出了适合该策略的宏块解码计算复杂度预测模型。最后结合CUDA编程模型,确定CUDA线程与宏块数据的映射关系,实现宏块级GPU解码并行。实验结果表明,尽管在整体上没有加速,但是针对已有的GPU并行策略传输开销过大的问题,有效解决了内存传输开销的问题,实现了GPU上的数据的复用。
其他文献
近年来,虚拟化应用场景日益增多,多用户拥有独立逻辑空间、共享后台资源,随着CPU计算资源和网络带宽资源大幅提升,存储资源逐渐成为性能瓶颈。固态盘(SSD)具有高性能、低能耗
学位
面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理
互联网的普及和电子商务的迅速发展造成了信息的过载,用户在大量的产品信息中难以找到需要的商品,由此,电子商务推荐系统应运而生。当前,电子商务推荐系统在实际运用中还不成
随着高性能并行系统的发展进步,并行计算的运用越来越受到广泛的重视,在并行计算性能提高需求增长的同时,I/O设备和CPU速度的增长率不匹配成为并行计算性能提高的主要瓶颈,所
随着J2EE技术大规模的应用,EJB技术受到广泛的质疑。EJB技术给J2EE应用开发带来了严重的复杂性和巨大的开销。降低J2EE的复杂性开始成为开发者的主要关注点。目前,在开源社区
随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的
随着近年来数据规模的爆炸式增长,数据去重和数据压缩作为削减数据冗余的两种关键技术,受到了更多的关注。和数据去重技术相比,数据压缩技术能够消除更多的数据冗余。在检测
本论文针对如何优化海量数据系统性能的问题进行若干方面的研究,提出了基于多因素的缓存替换算法CacheValue以及在数据库查询优化方面提出了基于双半连接的查询优化算法。  
随着信息科技的迅速发展,基于闪存的存储设备以其显著的高性能和低能耗等优势,正逐渐成为计算机存储系统中的一个重要组成部分。然而,由于其相对较高的价格和低容量,如何通过