论文部分内容阅读
随着互联网的普及以及第五代通信技术的蓬勃发展,基于超高清图像、视频的应用受到了越来越多的青睐。受拍摄设备或者拍摄环境等因素的限制,往往无法直接获取到超高分辨率的图像或视频,进而需要通过超分辨算法进行后期处理。同时,与低分辨率图像、视频相比,超高清图像、视频内容包含的数据量骤增,如何进一步提高其压缩效率也成为当下的迫切需求。
插值滤波方法在图像超分辨任务和视频压缩任务中均有关键作用。图像超分辨是对低分辨率图像进行插值滤波获得高分辨率图像的过程,插值滤波方法的性能决定了高分辨率图像的质量。在视频压缩任务中,可以采用插值滤波算法对整像素样本进行插值获取分像素样本,实现更高精度的分像素级的运动补偿。传统的基于信号处理理论设计的插值滤波方法很难以适应多元化的图像、视频内容和复杂的编码环境,其性能很难进一步提升。近年来,卷积神经网络在计算机视觉任务中得到广泛应用,尤其是在图像分割、超分辨等领域取得了巨大进步,这为插值滤波方法的研究提供了新的方向。因此,本文将卷积神经网络引入到插值滤波器设计中,提出了新的图像超分辨模型,并将其应用到新一代视频编码标准H.266/VVC(Versatile Video Coding)的编码平台VTM7.0中。以下是本文的主要内容:
(1)受到三极管放大电路中静态工作点概念的启发,本文提出了一种新型自适应激活函数。将原始ReLU函数中的零点作为可学习、可调节的静态工作点,有效的缓解了原始ReLU函数在参数初始化不当或学习率过大的情况下导致的神经元坏死问题,本文将其应用在经典图像超分辨模型VDSR中,取得了明显的增益。
(2)现有的基于前馈结构的图像超分辨网络采用单一上采样的结构,即只在网络的末尾利用上采样模块对学习到的低分辨率特征进行上采样,并未充分利用高分辨率特征与低分辨率特征之间的依赖关系。本文结合转置卷积和残差网络模块,提出了残差投影模块(Residual Projection Block,RPB),并基于该模块设计了一种新型的图像超分辨模型残差投影网络(Residual Projection Network,RPNet)。实验表明,该模型在图像超分辨任务中常用的测试数据集Set5、Set14和B100上均取得了较好的成绩。
(3)考虑到视频编码失真,将提出的RPNet重新训练并应用在新一代视频编码标准H.266/VVC的编码平台VTM7.0中,进行二分之一精度的分像素样本插值。实验表明,该模型可以提高分像素运动估计的精度,进而提高编码器的性能。
插值滤波方法在图像超分辨任务和视频压缩任务中均有关键作用。图像超分辨是对低分辨率图像进行插值滤波获得高分辨率图像的过程,插值滤波方法的性能决定了高分辨率图像的质量。在视频压缩任务中,可以采用插值滤波算法对整像素样本进行插值获取分像素样本,实现更高精度的分像素级的运动补偿。传统的基于信号处理理论设计的插值滤波方法很难以适应多元化的图像、视频内容和复杂的编码环境,其性能很难进一步提升。近年来,卷积神经网络在计算机视觉任务中得到广泛应用,尤其是在图像分割、超分辨等领域取得了巨大进步,这为插值滤波方法的研究提供了新的方向。因此,本文将卷积神经网络引入到插值滤波器设计中,提出了新的图像超分辨模型,并将其应用到新一代视频编码标准H.266/VVC(Versatile Video Coding)的编码平台VTM7.0中。以下是本文的主要内容:
(1)受到三极管放大电路中静态工作点概念的启发,本文提出了一种新型自适应激活函数。将原始ReLU函数中的零点作为可学习、可调节的静态工作点,有效的缓解了原始ReLU函数在参数初始化不当或学习率过大的情况下导致的神经元坏死问题,本文将其应用在经典图像超分辨模型VDSR中,取得了明显的增益。
(2)现有的基于前馈结构的图像超分辨网络采用单一上采样的结构,即只在网络的末尾利用上采样模块对学习到的低分辨率特征进行上采样,并未充分利用高分辨率特征与低分辨率特征之间的依赖关系。本文结合转置卷积和残差网络模块,提出了残差投影模块(Residual Projection Block,RPB),并基于该模块设计了一种新型的图像超分辨模型残差投影网络(Residual Projection Network,RPNet)。实验表明,该模型在图像超分辨任务中常用的测试数据集Set5、Set14和B100上均取得了较好的成绩。
(3)考虑到视频编码失真,将提出的RPNet重新训练并应用在新一代视频编码标准H.266/VVC的编码平台VTM7.0中,进行二分之一精度的分像素样本插值。实验表明,该模型可以提高分像素运动估计的精度,进而提高编码器的性能。