基于通道注意力和并行解码策略的图像压缩算法研究

被引量 : 0次 | 上传用户:wayl1s1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代来临,数字信息发生爆炸式增长,这给现有的硬件存储设备带来了极大压力。图像是目前数字信息的最主要载体,图像压缩算法通过去除图像中的冗余数据,用更紧凑的方式来表示图像信息,可大幅降低图像信息所需的存储空间和传输带宽。目前传统的图像压缩算法,诸如JPEG、JPEG2000、BPG、VVC等虽然能获得较好的压缩效果,但是它们都依赖于人工设计的模块,无法进行模块间的联合优化,算法的性能严重依赖于各个模块设计的优劣程度。近年来,神经网络因其强大的学习能力和可端到端联合优化的特点在图像处理领域得到了广泛应用,基于神经网络构建的图像编解码器在图像压缩领域也取得了巨大进展。本文构建了一种面向有损压缩任务的全注意力图像压缩框架,框架中包含编解码器、熵编解码器、超编解码器、量化器、上下文建模模块以及熵参数预测模块共九个模块。采用了一种轻量级的通道注意力模块—注意力激活模块(Attentional Activation,ATAC),其兼具通道注意力和激活函数的作用,且由于激活函数普遍存在于卷积层中,将ATAC作为各卷积层的激活函数嵌入到编解码网络的全网络中,在发挥其非线性激活作用的同时,也构成了一种具有全注意力的图像编解码网络。与嵌入混合注意力模块—残差块注意力模块(Residual Block Attention Module,RBAM)的图像编解码网络相比,本文框架可获得更好的率失真性能,且注意力模块的参数量减少了 26.8%。实验结果表明:当以峰值信噪比(Peak Signal to Noise Rate,PSNR)和多尺度结构相似性(Multi-Scale Structural Similarity Index,MS-SSIM)作为评价指标时,本文框架在Kodak和CLIC两个图像验证数据集上的率失真性能都超越了原有算法,并获得了更好的主观视觉效果。此外,本文也改进了图像压缩框架中上下文模型的结构。上下文模型是当前图像自编码器中用于提取隐表示上下文信息的模块,常用于提取隐表示系数之间的互信息,从而减少图像数据的编码码字长度。目前常用的自回归上下文模型将当前位置之前的隐表示系数作为条件信息,建立自回归条件模型,进而对当前位置系数进行预测,具有很强的图像生成能力。但该模型存在解码时间长、计算量与图像尺寸成正比的缺点。本文针对此问题对编解码框架进行了三点改进:1)将当前的二维上下文模型扩展为三维上下文模型,使上下文模型提取信息的维度从二维空间扩展为跨通道的三维空间;2)将自回归上下文模型改进为类似国际象棋棋盘的棋盘格上下文模型,解码方式从自回归式串行解码改进为两步式并行解码;3)将三级级联结构的瓶颈残差块(Residual Bottleneck blocks,RBs)作为非线性激活函数嵌入到主编解码器中,在发挥非线性激活作用的同时,进一步加深编解码网络的深度。该三维棋盘格上下文模型将隐表示中的系数分为两类:锚点和非锚点,并先后通过两个通道完成所有隐表示系数的解码,即无论隐表示的尺寸多大,只需通过两步式并行解码即可得到所有的解码系数,解决了自回归上下文模型存在的效率低下问题。堆叠残差块RBs中包含多个1×1逐点卷积(Point-wise Convolution,PWConv),其在有效聚合跨通道上下文信息的同时,也能发挥非线性激活的作用。且RBs为三层堆叠残差结构,将其嵌入到编解码网络中可进一步加深网络的深度,进而增强编解码器的表达能力。实验结果表明,较原编解码框架,本文基于三维棋盘格上下文模型和堆叠残差块RBs的编解码框架在Kodak数据集上平均解码速度提升了 109倍,在Tecnick数据集上平均解码速度提升了 192倍,且模型的率失真性能也得到了一定的提升。
其他文献
<正>退役军人是一个庞大且不容忽视的群体,如何实现退役军人高质量就业,保障好退役军人的权益,对实现我国军队现代化具有重要意义。而退役军人的就业培训作为保障退役军人权益的一项重要工作,是推动军事人才资源向地方人才资源转型的驱动力,是实现个人价值的强心剂,直接关乎退役军人群体的就业安置和社会的和谐稳定。
期刊
报纸
近年来,为了响应中央稳定、发展经济的号召,地方政府致力于加强城市建设和发展核心竞争力。因此,地方政府债务规模迅速扩张,偿债压力也相应的增加。与此同时,地方债务与我国金融体系中的其他行业息息相关,地方债务违约不仅会影响某一行业的经济发展,这种风险还会向其他行业产生风险溢出效应。因此,地方政府债务风险的金融风险会产生怎样的影响以及产生的不良影响应该如何防范化解已成为学者思考的问题。在此背景下,本文决定
学位
随着科技的不断发展进步,人工智能产品在日常生活中变得不可或缺,通过移动终端设备进行照片和视频分享已成为互联网社交的主要方式之一。网络用户在社交平台上每天上传与下载大量图片,一定程度上加大了网络的传输带宽压力。且随着图像分辨率日益提高,其在电子设备中占用的存储空间不断增加,增大了设备的存储成本,因而图像压缩技术对促进数字图像的高效传输起着举足轻重的作用。由于传统图像压缩方法在低码率下的重建图像易产生
学位
电磁信号调制识别是电磁信息安全领域的重要技术基础。该文针对无线衰落造成电磁信号调制识别准确率低的问题,研究比较了基于深度学习的无线衰落信道电磁信号的调制识别方法。通过Matlab仿真生成同向正交(IQ)电磁信号数据,比较分析了AlexNet、VGGNet、ResNet和DenseNet四类神经网络模型的信号调制识别准确率,得到适合应用于无线衰落信道电磁信号调制识别的模型。结果表明,DenseNet
期刊
本研究旨在将建立的马(Equuscaballus)骨髓间充质干细胞诱导分化为成骨细胞和软骨细胞。通过原代细胞培养获取马的骨髓间充质干细胞,并对第3代(P3)纯化细胞进行干细胞特性鉴定,之后诱导其向不同细胞分化并对诱导分化的细胞进行染色和特异性基因表达的鉴定。实验结果显示,获得的马骨髓细胞表达了干细胞转录因子和间充质干细胞表面标记物,确定获得的细胞为马骨髓间充质干细胞。P3代细胞经诱导培养后由长梭形
期刊
结构化知识有利于学生掌握学科的核心概念和思想方法,更利于知识的迁移、应用及创新,能为学生适应未来信息爆炸的时代打好基础。一些教师缺乏将知识结构化的意识,难以实施结构化教学。以结构化知识组织单元教学的策略,在教学实践中效果良好,优于传统教学模式,可以提升学生的核心素养,推进区域新课改实践。
期刊
报纸
<正>彩色水稻是组织或器官呈现常规的绿色以外的特殊色泽的水稻,是兼具观赏性与营养价值的农作物。彩色水稻一般可分为三大类型:一类是彩色稻米,即带有非常规绿色的稻米,如红色、黑色、紫色;第二类是叶片彩色,呈现红色、紫色、黄色等,主要以红色、紫色为主;最后一类为谷壳彩色,如谷壳呈现棕色、褐色、红色、黑色等。近年来,彩色水稻逐渐被公众所接受,农户种植彩色水稻,用彩色水稻展开稻田画的制作,吸引了公众的关注,
期刊
创新资源在产业上的合理配置和集聚是实现产业创新驱动发展的关键,对推动珠三角及粤港澳大湾区的建设更是具有重要意义。基于"科教资源—知识产权—产业发展"的创新发展链条,文章构建了科教资源密集度、知识产权支撑力和产业竞争力等概念及评价指标体系,对科教资源和知识产权资源进行产业匹配,综合产业与空间视角,对珠三角地区的产业与创新发展的协同性进行定量分析。研究发现:珠三角地区的科教资源和知识产权资源均表现出明
期刊