基于深度学习的视频编码技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:blnxy778
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术、互联网技术的发展和移动终端、智能设备的普及,数字广播电视、互联网视频、视频会议、远程医疗、远程教育等传统多媒体应用以及3D视频、虚拟现实视频、短视频等新兴多媒体应用丰富着人们的日常生活,但同时也使得视频数据呈爆炸式增长,给数据存储和网络传输带来巨大挑战,如何稳定高效的存储和传输海量的视频数据成为目前亟待解决的问题。数字视频压缩技术在视频数据压缩处理中扮演关键角色,数字视频压缩技术在通信、计算机、广播电视等领域的广泛应用促进了数字视频编码标准的产生和发展。目前,已经发布的最新的数字视频编码标准HEVC和AVS2虽然能够满足高清和超高清数字视频的压缩性能需求,但是,随着人工智能的发展和5G时代的到来,更加庞大的视频数据量对视频编码标准提出了更高的要求,因此,在现有数字视频编码标准的基础上进一步提升压缩性能十分必要。近年来,随着深度学习的发展,以卷积神经网络为代表的深度神经网络在计算机视觉、语音识别、自然语言处理等计算机领域都取得了令人瞩目的成果,利用深度学习提升视频编码的压缩性能不仅能够为未来的数字视频编码标准提供技术储备,而且是目前视频编码领域的前沿问题和研究热点。本文从利用深度学习提升视频编码技术的压缩性能角度展开深入研究,涵盖了数字视频编码标准框架中的帧内预测、帧间预测以及环路滤波三个主要模块。具体的研究内容分为以下三个部分:第一,本文提出了基于多尺度卷积神经网络的帧内预测算法,用来提高视频编码中帧内预测的准确性。基于方向插值的帧内预测方法广泛应用在现有的数字视频编码标准中,这种方法能够很好的预测具有主方向纹理的图像块,但是对于复杂纹理的图像块或者方向性较弱的图像块不能获得较好的预测效果。为了提高现有视频编码标准中的帧内预测的准确性和为下一代视频编码标准的制定做技术储备,本文提出了基于多尺度卷积神经网络的帧内预测方法。具体来讲,本文提出的算法由两个子网络组成:多尺度特征提取网络和复原网络。将基于方向插值的帧内预测生成的预测块与其相邻的L型重构像素组合为更大的图像块输入到多尺度特征提取网络,然后将输入图像块进行下采样并提取不同尺度的特征图,最后对特征图进行上采样恢复到原始尺度。复原网络用来聚合不同尺度的特征图,并利用卷积操作生成最终更准确的预测块。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧内预测算法能够获得3.4%的BD-rate节省。第二,本文提出了基于深度神经网络的帧间预测算法,用于提高数字视频编码中帧间预测的准确性。现有的数字视频编码标准中的帧间预测是通过运动估计和运动补偿技术从参考帧获取当前预测块,基于平移运动的运动估计技术不能处理自然视频中的更复杂的变化,如非线性亮度变化、模糊、缩放等。为了提高视频编码中帧间预测的准确性,本文提出了基于深度神经网络的视频编码帧间预测算法,旨在利用当前块邻近的L型重构像素、参考块邻近的L型重构像素提高帧间预测的准确性。具体来讲,本文提出的方法包括三个子网络:关系估计网络、组合网络、深度提纯网络。关系估计网络用于学习当前块与其参考块之间的关系。组合网络用于提取学习到的关系和参考块的特征图,然后将这些特征图连接在一起。深度提纯网络用于生成最终更准确的预测块。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧间预测算法能够获得4.4%的BD-rate节省。第三,本文提出了基于卷积神经网络的环路滤波算法以及基于GPU的环路滤波并行优化算法,前者旨在利用卷积神经网络提升环路滤波的编码性能;后者旨在降低环路滤波的编码复杂度。环路滤波在现有的数字视频编码标准中扮演十分重要的角色,不仅能够去除编码过程中产生的块效应、振铃效应,提高重构视频的主观质量,而且能够提高视频编码的压缩性能。本文从两个方面对环路滤波展开深入的研究。一方面,从提高环路滤波的编码性能入手,本文提出了基于卷积神经网络的环路滤波算法。具体来讲,本文提出了一个全新的卷积神经网络结构,利用编码过程中产生的边信息(如块划分、残差以及运动矢量)结合重构视频本身来提高环路滤波的性能。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧间预测算法能够获得4.6%的BD-rate节省。另一方面,环路滤波的较高复杂度是HEVC在实时编码应用场景中的瓶颈,为了降低环路滤波的编码复杂度以及考虑基于深度学习的视频编码架构使用CPU+GPU的多设备协同编码,本文提出了基于GPU的环路滤波并行优化算法。具体来讲,本文提出了使用CPU+GPU的多设备协同的并行编码方案,通过将HEVC编码端Deblocking和SAO联合在GPU端并行处理来降低环路滤波的编码复杂度。实验结果表明,与HEVC的开源编码器x265相比,本文提出的环路滤波并行算法能够获得47%的编码加速。
其他文献
绿色包装是包装业适应环境保护发展的必然趋势。本文论述了绿色包装方面的国际法规及设计原则,这些原则包括选择合理的包装结构设计和形式,减少不必要的包装材料,避免包装物
目的了解内蒙古农区饮茶型氟中毒病情及特点。方法对调查点饮水、砖茶、奶茶(砖茶水)、成年人尿含氟量检测,居民年人均砖茶消耗量调查,成年人骨密度检测及X线摄片。结果调查
为了研究超临界CO2中混合染料对涤纶织物的染色行为,利用自行研制的超临界CO2染色装置,在温度70~130℃,压力16~24MPa,时间15~100min的条件下采用混合分散染料(分散蓝366和分
发射率是物质表面的一项重要的热物性参数,其测量精度水平、大小控制、变化特征控制是衡量各种相关产品质量的重要技术指标,在红外测量技术中占据着重要地位。然而,发射率与多种
中医学对勃起功能障碍的研究历史悠久,经验宏丰,从肝论治本病,强调肝司宗筋,论治之时尤要重肝:肝气郁滞者,可用疏肝理气之法;肝血瘀阻者,可用活血通络之法;肝经湿热者,可用清
本文结合作者实际情况,总结了在生物教学中对学生进行环保教育的经验。 Based on the actual situation of the author, this article summarizes the experience of studen
【正】贾祖璋的《南州六月荔枝丹》,共十四个自然段(原文十五个自然段,编入教材删去了“煮蜜方法”一段),不足两千字。然而无论结构、语言、征引或文笔,都自有特色,不失为一篇
广义逆的理论和方法不仅是许多数学分支的基本工具,而且在经济学、统计学、测量学、最优化、信息处理、自动控制、工程技术和运筹学等应用学科中都有着广泛的应用。在研究最
胜坨地区为胜利油田勘探开发的老油区,位于济阳坳陷东营凹陷坨胜永断裂带,我队施工的井大都为垂深2200井斜24度左右的定向井,该区块上部地层松软,地层多为沙岩和泥页岩,可钻
"多规合一"是国家深化改革下空间治理的突破口,是建立空间规划体系的关键步骤,是实现政府空间治理能力现代化的重要途径。本文通过在大理州永平县的工作实践,总结了滇西地区"