论文部分内容阅读
近年来,GPU设备的性能有了大幅的提升,但是现有的帧内预测相关工作却并不能有效地利用此类设备的强大的计算能力,其主要原因在于算法并行度不高。这些工作大多都只是停留在帧内预测算法的粗粒度并行,如块级并行和片级并行等,对于像素级和模式级的细粒度并行则很少涉及。 基于CUDA的并行帧内编码机制,根据GPU中内存架构的特性以及H.264/AVC中帧内预测公式的特点,通过结合细粒度和粗粒度并行的方式大幅提升并行度,同时降低计算复杂度,使得编码效率极大地提升。该机制采用了多种优化策略来提升编码效率:第一,将H.264/AVC标准中帧内预测公式变换成统一的格式并且引入统一参考数组,在此基础上实现了基于查表的细粒度并行帧内预测算法,同时对该算法进行了推广,使之可以用于帧内编码中的各类线性变换过程;第二,改进并加入快速模式决策算法,通过剔除部分预测模式来降低计算复杂度,进而减少帧内编码执行时间,其中产生的视频质量的损失可以忽略不计;最后,通过采用组合帧技术以及改进的子宏块编码顺序实现了帧级和子宏块级的粗粒度并行。 在采用不同配置的三种测试平台上分别针对CIF、1080p和2160p分辨率的视频序列进行测试时,利用以上机制实现的编码系统相对于现有并行帧内编码机制效率提升了2至6倍,相对于现有串行帧内编码机制效率提升了7至14倍。该机制在多种平台上对各类视频表现都相当稳定,是一种高效的帧内编码机制。