论文部分内容阅读
随着信息时代来临,数字信息发生爆炸式增长,这给现有的硬件存储设备带来了极大压力。图像是目前数字信息的最主要载体,图像压缩算法通过去除图像中的冗余数据,用更紧凑的方式来表示图像信息,可大幅降低图像信息所需的存储空间和传输带宽。目前传统的图像压缩算法,诸如JPEG、JPEG2000、BPG、VVC等虽然能获得较好的压缩效果,但是它们都依赖于人工设计的模块,无法进行模块间的联合优化,算法的性能严重依赖于各个模块设计的优劣程度。近年来,神经网络因其强大的学习能力和可端到端联合优化的特点在图像处理领域得到了广泛应用,基于神经网络构建的图像编解码器在图像压缩领域也取得了巨大进展。本文构建了一种面向有损压缩任务的全注意力图像压缩框架,框架中包含编解码器、熵编解码器、超编解码器、量化器、上下文建模模块以及熵参数预测模块共九个模块。采用了一种轻量级的通道注意力模块—注意力激活模块(Attentional Activation,ATAC),其兼具通道注意力和激活函数的作用,且由于激活函数普遍存在于卷积层中,将ATAC作为各卷积层的激活函数嵌入到编解码网络的全网络中,在发挥其非线性激活作用的同时,也构成了一种具有全注意力的图像编解码网络。与嵌入混合注意力模块—残差块注意力模块(Residual Block Attention Module,RBAM)的图像编解码网络相比,本文框架可获得更好的率失真性能,且注意力模块的参数量减少了 26.8%。实验结果表明:当以峰值信噪比(Peak Signal to Noise Rate,PSNR)和多尺度结构相似性(Multi-Scale Structural Similarity Index,MS-SSIM)作为评价指标时,本文框架在Kodak和CLIC两个图像验证数据集上的率失真性能都超越了原有算法,并获得了更好的主观视觉效果。此外,本文也改进了图像压缩框架中上下文模型的结构。上下文模型是当前图像自编码器中用于提取隐表示上下文信息的模块,常用于提取隐表示系数之间的互信息,从而减少图像数据的编码码字长度。目前常用的自回归上下文模型将当前位置之前的隐表示系数作为条件信息,建立自回归条件模型,进而对当前位置系数进行预测,具有很强的图像生成能力。但该模型存在解码时间长、计算量与图像尺寸成正比的缺点。本文针对此问题对编解码框架进行了三点改进:1)将当前的二维上下文模型扩展为三维上下文模型,使上下文模型提取信息的维度从二维空间扩展为跨通道的三维空间;2)将自回归上下文模型改进为类似国际象棋棋盘的棋盘格上下文模型,解码方式从自回归式串行解码改进为两步式并行解码;3)将三级级联结构的瓶颈残差块(Residual Bottleneck blocks,RBs)作为非线性激活函数嵌入到主编解码器中,在发挥非线性激活作用的同时,进一步加深编解码网络的深度。该三维棋盘格上下文模型将隐表示中的系数分为两类:锚点和非锚点,并先后通过两个通道完成所有隐表示系数的解码,即无论隐表示的尺寸多大,只需通过两步式并行解码即可得到所有的解码系数,解决了自回归上下文模型存在的效率低下问题。堆叠残差块RBs中包含多个1×1逐点卷积(Point-wise Convolution,PWConv),其在有效聚合跨通道上下文信息的同时,也能发挥非线性激活的作用。且RBs为三层堆叠残差结构,将其嵌入到编解码网络中可进一步加深网络的深度,进而增强编解码器的表达能力。实验结果表明,较原编解码框架,本文基于三维棋盘格上下文模型和堆叠残差块RBs的编解码框架在Kodak数据集上平均解码速度提升了 109倍,在Tecnick数据集上平均解码速度提升了 192倍,且模型的率失真性能也得到了一定的提升。