基于深度学习的图像视频压缩方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:juezhan2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去几十年的发展中,传统图像视频编码通过充分挖掘帧内和帧间图像之间的相关性,极大地提升了图像视频的编码效率。但是在移动通信和人工智能飞速发展的今天,图像视频的编码需求日益多元化,在线直播、短视频等场景对视觉质量提出了更高的要求;智能城市等场景中则需要传输海量图像视频到云端进行智能分析,传统图像视频编码标准面临着新的挑战。因此,探索一条新的图像视频压缩的技术途径是非常有必要的。本文提出研究基于深度学习的图像视频压缩方法。围绕这一主题,本文针对不同的需求提出了自己的解决方案,可以分为图像压缩和视频压缩两大部分。具体的,本论文的主要贡献点和创新点如下:1.本文构建了一种基于编码器-解码器架构的图像压缩网络,并实现了端到端的率失真优化。具体的,本文约束待编码特征基于上下文的条件概率服从高斯分布,从而估计信息熵,并与失真度量一起优化。其中高斯分布的均值和方差由代表上下文的边信息预测得到。最终本文的方法在Kodak数据集上性能与BPG方法相当,相同压缩质量下,压缩文件大小相比JPEG2000最多减少40%。对于现有深度学习图像压缩方法单个模型只能对应一种码率的问题,本文提出了一种非常简单但是很有效果的可变码率方法,通过构建条件自编码器,引入一个码率控制因子调节待编码特征的概率分布发散程度,实现了单网络模型的码率动态调节。2.对于需要从终端设备上传图像到云端进行视觉任务分析的场景,本文提出了面向语义保真的深度特征压缩方法。具体地,本文设计了一个轻量化的特征压缩模块,可以嵌入到通用卷积神经网络中,提取对于任务而言最重要的语义特征,并进行压缩编码。在目标分类场景下,与以HEVC为代表的信号保真压缩方法相比,本文方法的压缩文件大小缩小了19倍以上。3.在基于预测编码框架的视频压缩中,需要估计视频帧间运动信息。而对于光流法、滤波器预测法等方法存在的感受野局限的问题,本文提出了基于可变形卷积的视频帧预测方法,通过提取相邻帧之间的运动特征,并从中预测卷积核的偏移量,在实现更大感受野的同时没有增加太多计算量。在此基础上,本文设计了一个简单的视频压缩方法,在HEVC标准测试序列上,PSNR和MS-SSIM指标与H.264/AVC相当。
其他文献
目的探究MCP-1对肺腺癌A549细胞增殖、侵袭和迁移的影响,以及可能的信号机制。方法体外常规传代培养人肺腺癌A549细胞株,分组:对照组、MCP-1组(25ng/ml、50ng/ml、75ng/ml、100ng/ml)、MCP-1+PD98059组(75ng/ml+100μmol/L)、PD98059组(100μmol/L)。MTT法检测细胞增殖情况,细胞划痕实验及Transwell实验检测细胞
现如今,随着互联网的普及,移动通信设备迅猛发展且逐渐成为人们日常生活中不可或缺的一部分。基带芯片作为移动通信设备的核心,其测试工作直接影响了移动通信设备的质量和开发成本。随着集成电路行业的飞速发展,基带芯片的工艺尺寸越来越小,集成度和复杂度越来越高。要保证基带芯片性能的良好,需产生深度和数量都很庞大的测试向量用于测试工作,因此其测试内容变多和测试向量转换难度随之提升。测试向量需要在自动化测试设备(
亥姆霍兹共振器被广泛应用在航空发动机、燃气轮机以及涡轮喷气推力增强器等推进系统,用来吸收噪声及抑制燃烧不稳定性。亥姆霍兹共振器吸声效果好但有效频带带宽较小,采用多个亥姆霍兹共振器可增加消声频段,但多个独立的亥姆霍兹共振器的布置受到推进系统内空间的限制。为了有效利用空间,降低推进系统的噪声,以及拓宽消声频带,本文研究了共享侧壁的耦合亥姆霍兹共振器在切向流作用下的吸声性能。共享侧壁可为刚性薄壁,也可以
当经济实现迅猛发展后,医疗卫生水平不断提升,生活质量得到显著改善,国内老年人数量大幅度增加,老龄化问题越来越严峻,如何确保老年人安享晚年,这是政府开展养老服务工作时关注的重要问题。政府部门积极转变职能,采用政府购买的方式为一些老人提供居家养老服务,政府利用财政资金购买该项服务,为符合条件的老年人提供低价或免费的养老服务,这体现了养老服务供给方式的创新。这种服务方式既能够缓解政府直接供给服务产生的压
目的研究MICAL1在结直肠癌中的表达情况及临床意义,探讨MICAL1对结直肠癌细胞迁移能力以及EMT蛋白标志物的影响,阐明MICAL1能否通过调控EMT影响结直肠癌细胞迁移。方法1、为了探索MICAL1在结直肠癌中的表达情况及临床意义,采用q PCR技术检测结直肠癌与癌旁组织样本中MICAL1的m RNA水平、利用Oncomine数据库分析不同基因芯片中MICAL1的m RNA表达水平。2、采用
听力是语言学习的一项基本技能,其理解过程不是单一被动的,需要听者积极运用自身的背景知识来理解说话者表达的真实意图。初中阶段是英语学习的关键时期,如果教师在听力教学中忽视激活、丰富和巩固学生的图式,不仅会影响学生的听力理解,也不利于学生听力水平的发展。如何合理地把图式理论运用于初中英语听力教学以提升学生的听力成绩和听力能力,是一个值得探讨的主题。为了探讨图式理论是否能提高初中的英语听力教学质量,笔者
电信企业在移动互联网的新时代背景下,迎来了新的重大机遇和挑战。传统业务不断萎缩,新型业务的开发亟需解决。而大数据技术的不断迭代成熟及运用,推动企业走向数字化、智能化,从而能够科学而准确的帮助电信运营商摆脱当前被管道化的业务困境,大数据技术带来的运营逐理念渐对企业经营理念及经营方式带来颠覆性影响。“互联网+行业”的模式在企业经营层面体现处理巨大的竞争优势,其本质就是互联网企业拥有大数据的核心技术,以
随着老龄化程度的加深,人口高龄化发展趋势增强、患病与失能风险增大,有效分析和了解影响老年人健康生活时长的主要因素,对提升人群健康素养水平,推进老年医疗卫生服务体系建设,完善全民健康服务保障和提高老年人健康预期寿命,具有重要现实意义。健康预期寿命作为综合衡量人群健康水平的重要指标之一,是人群生命长度和质量的综合反映。论文主要从以下几方面展开:一是聚焦老龄化社会背景,特别是上海老龄化进程日渐严重的现状
毫米波大规模MIMO技术兼具毫米波频段频谱资源丰富以及大规模MIMO高阵列增益的优势,是满足5G大容量传输需求的重要支撑技术之一。考虑到当前毫米波频段的器件成本和功耗,在毫米波大规模MIMO系统中,通常采用模拟和数字域相结合的混合预编码技术来减少射频链路数目,大幅降低系统成本和功耗。混合预编码方案的实现需要设计相应的RF链路-天线连接方式,而现有研究多是基于固定的全连接或部分连接结构,对于动态子阵
细胞穿膜肽(cell-penetrating peptides,CPPs)是一类由5-30个氨基酸组成具有蛋白转运功能的多肽,由于穿膜肽能有效地运载质粒DNA、干扰RNA、核酸、蛋白质等生物活性物质进入