论文部分内容阅读
随着视频编码标准的发展,其编码算法的复杂度持续提升,传统的单核处理器已经很难满足当前先进的视频编码技术对计算能力的要求。同时,随着集成电路制造技术进入纳米级,众核(Many-core)处理器及多线程技术成为处理器体系结构设计的热点技术。在这种情况下,面向众核处理器的并行视频编码,作为保证视频编码对计算能力需求的重要技术手段,已经成为视频编码领域的一个热点研究方向,具有重要的学术价值和巨大的应用前景。 本文开展面向众核处理器的并行视频编码关键技术研究,重点研究适用于众核处理器的并行H.264/AVC环路滤波、HEVC帧内预测和HEVC运动估计方法,以有效解决现有方法并行处理效率低和影响率失真性能的问题,充分挖掘众核处理器的计算能力,在保证率失真性能的情况下提高并行处理效率。已取得的研究成果如下: 1.面向众核处理器的并行H.264/AVC环路滤波方法 已有的并行环路滤波方法都集中于数据级的并行,环路滤波控制指令非常密集,整个环路滤波过程在不同数据级上都显示出很强的数据相关性,使得目前的算法普遍存在并行度低、同步负载大和负载不均衡的问题,严重影响率失真性能和并行处理效率。本文提出了一种任务级并行方法:首先将整个环路滤波过程分成两个子任务,分别为“边界强度计算(boundary strength computation,BSC)”和“真假边界区分以及滤波(edge discrimination and filtering,EDF)”,然后深入分析各个子任务存在的问题,并分别提出了针对性的解决方案。针对子任务BSC存在的负载不均衡问题,本文利用BSC在空间上的相关性,采用基于马尔科夫转移概率的加速方法,以有效解决负载不均衡问题;针对子任务EDF存在的并行度低、同步负载大问题,本文采用基于独立像素连通区域的并行方法,以有效提高并行度,降低同步负载。实验结果表明:与主流的宏块级并行方法相比,针对QCIF、CIF和HD视频序列,在保证率失真性能不变的情况下,本文方法分别取得了超过14倍、17倍和10倍的加速比。 2.面向众核处理器的并行HEVC帧内预测方法 相对于H.264/AVC,HEVC的帧内预测模式更多、更复杂,这增加了并行HEVC帧内预测的难度,目前针对HEVC的并行帧内预测方法并行度偏低,不能充分利用众核处理器的众多处理单元,严重影响并行处理效率。本文提出了一种面向众核处理器的并行HEVC帧内预测方法:首先分析了CTU之间的数据依赖性,并且用前向无环图来加以描述;然后用基于前向无环图的顺序并行处理CTU,挖掘了CTU级的并行度。实验结果表明:相对于主流的PIC(Parallel intra coding)并行方法,针对分辨率为1920×1080和2560×1600的视频序列,在保证率失真性能的情况下,本文方法分别取得了超过6倍和10倍的加速比。 3.面向众核处理器的并行HEVC运动估计方法 根据并行范围的不同,目前的并行运动估计方法可以分为全局并行方法和局部并行方法:传统的全局并行方法能提供很高的并行度,如果直接用于HEVC编码标准,会破坏空间上邻近预测单元(prediction unit, PU)之间的相关性,严重影响HEVC的率失真性能;局部并行方法适用于HEVC标准,保证了率失真性能,然而并行度偏低,不能充分利用众核处理器的众多处理单元,严重影响并行处理效率。本文在局部并行方法的基础上,提出了一种基于前向无环图的并行运动估计方法:首先分析多个数据粒度上的相关性;然后用前向无环图来描述邻近CTU之间的相关性,并且提出了一种基于前向无环图的并行处理顺序;同时每个CTU内部采用改进的局部并行方法;当并行度小于处理单元数目,本文并行处理完全独立PU和部分独立PU。实验结果表明:相对于主流的局部并行方法,针对分辨率为1920×1080和2560×1600的视频序列,在保证率失真性能不变的情况下,本文方法分别取得了超过12倍和17倍的加速比。