基于深度学习的视频帧间预测编码方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:q412202242
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,视频数据量呈指数级增长,给存储和传输造成巨大压力,因此迫切需要对视频进行更高效的压缩。视频数据中主要为时间冗余,帧间预测是去除时间冗余的核心工具。因此,如何高效地进行帧间预测是提升视频编码效率的关键。经过四十多年的发展,帧间预测技术取得显著进步,但随着研究的深入,传统帧间预测的发展也逐渐遇到性能瓶颈,这主要有两方面原因:第一,传统帧间预测模块是手工设计和优化的,预测能力有限;第二,帧间预测模块通常单独优化,导致很难达到整体最优编码性能。因此,迫切需要新工具新思路来突破帧间预测的发展瓶颈。近年来,深度学习在图像视频处理领域取得巨大成功,这主要得益于深度学习的两个优点:第一,深度网络可以拟合复杂的非线性映射关系,表达能力强;第二,借助于数值优化算法,深度网络很容易进行联合优化。可以看出,深度学习恰好可以弥补传统帧间预测的缺点。基于上述分析,本文将研究如何利用深度学习来解决帧间预测中的难题。本文提出利用深度学习先增强,再生成,最后结合残差编码联合优化的研究思路,从浅到深、依次递进地解决传统帧间预测中的难题。首先,对于传统帧间预测可以处理得较好的部分,如简单运动,本文提出利用深度网络在传统预测基础上进行增强,来进一步提升预测准确性。其次,对于传统帧间预测处理不好的部分,如复杂运动,本文提出利用深度网络直接生成帧间预测,打破传统平移运动模型的局限,获得更准确的预测信号。最后,本文提出将帧间预测与残差编码结合,以深度网络为工具进行联合优化,来提升整体编码性能。除了上述技术研究外,本文还从数学优化角度对帧间预测编码进行总结和分析,探讨帧间预测编码技术的发展潜力。论文的主要工作及贡献如下:(1)对于帧间预测增强,本文提出了一种基于卷积网络的帧间预测增强方法。首先,本文提出了一种时域相关的帧间预测增强方案,利用训练的卷积神经网络直接对运动补偿后的帧间预测信号进行增强,使其接近原始信号。在此基础上,本文不仅利用时间相关性而且利用空间相关性,提出一种时空相关的帧间预测增强方案,结合相邻重建区域来进一步增强预测信号。最后,将两种方案集成进视频编码框架中。实验结果表明所提方法有效地提高了视频压缩效率。(2)对于帧间预测生成,本文提出了一种基于深度网络的参考帧对齐外插预测方法。本文在基于深度网络的帧外插预测技术中,引入了基于运动估计和运动补偿的多帧对齐方案,这样可以有效地去除参考帧间的平动,使外插网络专注于处理高阶运动,从而提高网络预测精度。然后,将对齐外插预测技术集成进编码框架中。实验结果证明,所提方法可以有效处理复杂运动,进而显著提升视频编码性能。(3)对于帧间预测结合残差编码,本文提出了一种基于深度学习和模式选择的混合优化视频编码方法。在结构上,整个框架(帧间预测和残差编码)均由深度网络构成,同时在框架中添加多种帧间预测模式。在优化方法上,离线阶段,使用大量数据,通过数值算法进行联合优化,得到预训练的深度网络模型;在线阶段,针对待编码视频,通过搜索优化自适应地得到较优的模式,并通过数值优化得到该模式的参数。实验结果证明,所提混合优化方法性能与具有相似帧间预测模式集的H.265(HM)相当,优于现有的纯深度学习视频编码方案。(4)本文对视频帧间预测编码进行了重新思考。视频编码本质上是一个关于码率和失真的优化问题,本文从率失真优化的角度进行分析发现,传统编码框架下的帧间预测本质上代表着离散优化求解,深度学习编码框架下的帧间预测代表着连续优化求解。基于此,本文提出了一种全新的混合优化编码策略,将帧间预测编码视为离散和连续优化问题的混合,使用搜索和数值算法来混合求解。本文的实验结果证明了两种优化混合的有效性。本文的分析为现有帧间预测编码技术提供了一定的原理解释,同时也为未来基于深度学习的帧间预测编码发展提供了新思路。
其他文献
目的:分析2008~2020年中国法定传染病发病及死亡流行趋势,为传染病防治提供科学依据。方法:整理统计2008~2020年中国法定传染病发病及死亡数据,计算发病率和死亡率的平均年度变化百分比(AAPC)和年度变化百分比(APC),采用Joinpoint回归模型分析发病率和死亡率的变化趋势。结果:2008~2020年共报告法定传染病发病88 649 053例,死亡239 297例,年均发病率为50
期刊
机器人末端执行能力是机器人的关键基础功能之一,执行机构应具备完成抓取、装配等操作物体的能力以满足常见的末端执行任务需求。自从上世纪五十年代以来,机器人抓取技术已经在汽车装配、机械加工、搬运码垛等封闭化场景中得到广泛的应用。但当前技术在家庭服务、农业采摘、快递分拣、3C装配等非封闭化场景中仍面临着巨大挑战。出现上述情况的关键原因在于现有机器人末端抓取机制的局限性:机器人决策模块必须基于精确的感知/模
学位
多金属氧酸盐(polyoxometalate,POM)是一类具有最高氧化态或混合价态的过渡金属无机分子簇合物,是通过氧原子桥连d0或d1金属离子而形成。近年来已在染料敏化太阳能电池(DSSC)、光催化以及光热治疗等领域表现出较好的应用前景。凭借可调的能带结构,显著的可见光吸收性能以及较强的接收电子能力,POM在DSSC的光阳极材料中作为传递电子的媒介或共敏剂受到广泛关注。参考了 DSSC中使用染料
学位
近年来,金属和有机小分子不对称联合催化逐渐发展起来,已经成为了合成结构多样的手性化合物的重要方法之一。金属和有机小分子联合催化体系可以充分发挥两类催化剂的优势,实现单一催化体系难以完成的反应。本篇论文对该领域的研究进展进行了详细的阐述,并围绕过渡金属和手性路易斯碱联合催化的不对称反应进行了研究。发展了可见光活化和手性异硫脲接力催化的α-重氮酮和氮杂二烯不对称串联环化反应,以优异的收率和立体选择性合
学位
深度思维指的是超越浅显认知的,能够觉察到事物深层逻辑的一种思维,包括直觉思维、批判思维、迁移思维、归纳思维等。基于深度思维开展初中物理实验教学,对于培养学生的识记、理解、应用、迁移等综合素养有着积极意义。文章基于初中物理实验教学具体案例,论述了基于深度思维开展教学的有效策略,指出教师可以通过确定目标、活用教法、组织活动、组织练习等方式引导学生在初中物理实验学习中发展深度思维,希望为一线教师提供教学
期刊
随着社会经济的发展,工业化、城市化进程的加快,能源需求量与日俱增,与之俱来的是化石能源造成的环境污染问题,其不可避免且迫切需要解决。因此,对清洁和可再生能源的研究探索成为全球科研工作者工作的焦点。然而,由于可再生能源供应不稳定,限制了其大规模应用。基于此,开发一种有利于实现稳定利用可再生能源的储存系统是非常必要的。近年来的研究表明,具有特殊物理化学性质的功能材料在利用可再生能源方面拥有巨大的开发和
学位
煤炭与人们的生活息息相关,近年来煤炭消费占比急剧上升。煤矿在建设和生产过程中矿井通风系统是不可或缺的一个环节,该通风系统产生的矿井回风一年四季不间断且风量巨大,部分矿井的回风温度维持在15℃以上。近年来国家积极鼓励终端用能多能互补和综合梯级利用,如何利用矿井回风热量一直是从事煤炭能源环保领域相关学者致力于研究的热点,其中喷淋换热热回收-热泵供热技术是矿井回风余热利用的主要方式之一。针对该换热方式开
学位
托卡马克等离子体高参数运行需要优化控制等离子体电流密度剖面、电子密度剖面及温度剖面等。这些参数均有相应诊断可以给出分布,如电流密度可用电磁测量、运动斯塔克效应等;电子密度可用偏振干涉仪、汤姆逊散射等。部分积分诊断还需要结合磁面测量才可以获得精确的剖面分布。相较于基于复杂物理模型的传统等离子体剖面重建算法而言,贝叶斯推断的等离子体剖面重建以概率统计的方式决定待求剖面的条件概率,给出基于拟合诊断测量数
学位
氨基醇类化合物广泛存在于天然产物以及药物分子中,是一类非常具有合成价值的化合物。对于氨基醇类化合物的合成,最简单有效的方法之一是环氧醇或氮杂环丙烷醇的亲核开环反应。此类反应具有反应条件温和,操作简单,原料及催化剂廉价且简单易得等优点,对于有机合成具有重要意义。本文分为三个部分来介绍路易斯酸催化的环氧醇和氮杂环丙烷醇的开环反应。第一部分:硼酸催化3,4-环氧醇的区域选择性胺解反应在本部分工作中,我们
学位
现代社会信息产业蓬勃发展,人们对于计算资源、计算能力的需求永无止境,但随着芯片加工尺寸接近原子量级,量子效应显现,晶体管电路逐渐接近性能极限,基于半导体产业的经典计算机计算瓶颈愈发显现,人们迫切需要探索新的计算方式。量子计算是一种利用量子力学原理调控信息单元从而完成计算任务的新型计算模式,其借助量子体系中的态叠加和纠缠特性可以实现并行计算,在特定的计算问题上,能够突破经典信息系统的计算极限,产生指
学位