视频编码中的高效预测技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong580
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,视频信息逐渐成为我们生活中必不可少的一部分。视频编码技术可以实现视频压缩,大大降低视频信息的数据量。因此,视频编码技术已经成为多媒体产业的核心技术之一。当前,新一代视频编码标准的研究正处于方兴未艾的阶段,是一个充满机遇与挑战的研究领域。在这一背景下,开展视频编码技术的研究具有非常重要的学术意义与产业意义。   高效预测算法的研究在视频编码领域中具有突出意义。预测技术是视频编码系统中最重要的核心技术之一,众多学者围绕预测编码提出了大量新技术、新方法。但现有的预测技术仍然存在一些问题:在帧内预测技术方面,没有充分考虑到预测与变换、熵编码等模块的结合,同时缺乏对预测模式本身的高效编码方式;在帧间预测技术方面,没有进一步挖掘帧间预测后残差域的相关性,同时各种高效的亚像素插值算法又带来了高复杂度的缺陷;在层间预测方面,缺乏对层间预测效率不高情况的判断与处理,导致在某些情况下可伸缩编码与单层编码相比压缩效率大为下降。   本文针对上述问题,围绕着预测技术这一主题,在帧内编码、帧间编码以及可伸缩编码等方面开展了一系列的深入研究,主要贡献如下:   1、在基于纹理特征的高效帧内预测编码方面,提出两项创新技术   第一项是基于上下文的自适应帧内预测模式判断技术。在现有的视频编码标准当中,如H.264/AVC,使用了较多的帧内预测模式来对Intra4×4做方向预测,这可以有效地提高帧内预测的效率,但也带来了两个问题。一方面,由于编码器需要遍历每个模式进行RD最优选择,较多的模式导致编码器的复杂度大大增加;另一方面,较多的帧内模式要求很大一部分码流用来传输模式信息,制约了帧内编码效率的进一步提高。针对上述问题,本文提出基于上下文的自适应帧内模式判断技术。这一技术首先建立帧内模式的Markov场模型,接着构造基于这个模型的表结构。此技术可以有两个应用方案。一是应用在快速算法中,不改变原有的H.264/AVC的语法;二是应用在提高模式信息编码效率上,改变语法。全Ⅰ帧条件下的实验表明,本技术应用于快速算法时,可以在平均PSNR损失不超过0.1dB的前提下,节省大约一半的编码时间;应用于提高性能时,最高可以使PSNR提高约0.3dB。   第二项是叠加块帧内预测技术与基于帧内预测的多模型KL变换技术。在新一代视频编码标准的研究热潮中,方向变换技术(MDDT)以其高效性与简洁性引起了人们的普遍关注,并被采纳进入VCEG/KTA参考软件。为了进一步提高帧内编码的效率,本文提出两种新的方法。首先,引入叠加块帧内预测的技术。在这一技术中,对某一位置的预测将利用三个可能的预测值做线性组合;这三个可能的预测值分别利用当前块、左侧块和上侧块的预测模式生成。线性组合的加权值则将利用经典的线性回归算法进行估计。其次,提出基于帧内预测的多模型KL变换技术(MMKIT),以进一步加强MDDT的性能。研究发现某一残差块的最优变换并不只取决于其预测模式,同时还取决于残差的方差。因此,本文为每种帧内预测模式预先定义三类KLT,这些KLT是根据不同的残差方差离线训练得到的。编码器根据RDO准则在宏块级选择最佳的变换类,并将所选择的变换类发送给解码器。实验表明,这两种方法结合使用,全Ⅰ帧条件下平均可以比MDDT节省约5%的码率,比H.264/AVC节省约11%的码率。   2、在基于运动补偿的高效帧间预测编码方面,提出三项创新技术   第一项是基于运动对齐的残差域方向预测技术。基于块的运动补偿技术可以有效减少视频序列中的时间方向的冗余度,在现代视频编码标准中占据非常重要的地位。随着视频编码技术的进步,基于块的运动补偿越来越精细,但经过运动补偿之后,残差之间仍然会有一定程度的冗余存在。为了进一步减少残差的冗余性,提高运动补偿的能力,近年来学者们开始试图把H.264/AVC中的帧内方向预测技术与帧间预测相结合。尽管这些技术给了人们很大启发,但它们对编码效率的提升十分有限。针对上述问题,本文提出了基于运动对齐的残差域方向预测技术(DRP-MA),创造性地在残差域上使用方向预测,使编码效率得到了显著提升。DRP-MA的核心思想是采用当前块的运动矢量生成运动对齐的伪残差,再利用伪残差对当前块的真实残差进行方向预测。本文还给出了完全搜索和简化搜索两种针对DRP-MA的编码策略。实验表明,本技术在IPPP条件下最高可以节省约20%的码率。   第二项是低复杂度八分之一精度亚像素插值技术。AVS视频编码标准采用了四分之一像素精度的运动补偿技术,其插值的精度还有进一步提升的空间。本文提出了一种低复杂度八分之一像素插值算法。八分之一像素按位置被分为两类;分别使用两种FIR滤波器插值得到这两类八分之一像素;插值的过程只利用整像素与二分之一像素,而不依赖于四分之一像素。实验表明,采用本文提出的八分之一像素插值算法,AVS视频编码器平均可以节约码率6%以上,最高可达11.5%;同时,编解码器的复杂度增加不大。本文所提出的这一技术已经被面向移动的 AVS标准草案采纳。   第三项是单次编码的局部自适应插值滤波技术。最近,人们提出了一种新的高效编码工具,称为自适应插值滤波技术(AIF)。AIF在亚像素插值过程中,引入了维纳滤波器,可以将帧间预测的误差降至其理论最小值,从而显著地提高了编码效率。但是从另一个角度来说,基于训练的维纳滤波机制也给AIF带来了固有的多次编码结构,这大大增加了编码器的计算复杂度和内存访问次数。针对这个问题,本文提出了一种基于单次编码的局部自适应插值滤波算法(SPL-AIF)。它既可以有效降低AIF的复杂度,又可以保留其良好的编码性能。研究发现相邻帧的最优插值滤波器有着很高的相关性,而同一帧的不同区域通常有着不同的统计特性。基于这些观察,本文设计了SPL-ALF算法。首先,为当前编码帧建立一个竞争滤波器集,它包含了前几帧的最优化插值滤波器和固定的H.264/AVC插值滤波器。接下来,使用RDO准则,在宏块级上选择最合适的插值滤波器。最后,为了降低额外信息,使用预测编码方法对每个MB的滤波器类型进行压缩。实验结果显示,本方法可以获得与多次编码AIF算法相当的编码效率,但编码复杂度却比AIF算法有大幅的降低。这一算法被VCEG采纳并进入了VCEG/KTA软件。   3、在基于最优化模型的高效层间预测编码方面,提出一项创新技术   主要提出了选择性层间预测技术。JVT在H.264/AVC的基础上发展出了可伸缩视频编码标准(SVC)。为了更好地支持空间可伸缩性,SVC引入了一种新的预测方式,即层间预测方式,基本思想是利用低分辨率码流对高分辨率码流进行预测,以提高高分辨率码流的编码效率。当需要播放多个分辨率的视频节目时,SVC的空间可伸缩码流可以比联播(Simulcast)码流有较大幅度的性能提高。然而,SVC有很多应用场景。SVC的空间可伸缩编码方式不适用于终端设备只需要播放最高分辨率的视频节目的情况。这是由于层间预测给增强层所带来的益处并不能补偿基本层码流本身所带来的额外码率。针对上述问题,本文提出了选择性层间预测技术(SIP)。通过禁用某些选定帧上的层间预测,SIP可以在空间可伸缩编码与联播编码之间取得最优的平衡。在理论上,这一选择问题可以用0-1背包问题进行建模,并用动态规划的方式求解。实验结果表明,在不需要基本层的情况下,SIP技术可以在增强层上取得高达1dB的编码增益;而在需要基本层的情况下,SIP在编码效率上的损失并不明显。SIP技术在JVT中被采纳,进入JSVM参考软件。
其他文献
近年来,作为互联网上用户生成内容(User Generated Content)的形式之一,协同标签系统(Collaborative Tagging Systems)也越来越流行。随着标签系统的发展,在该应用背景下的用
查询相关的多文档摘要技术依据给定的查询,将多篇相关文档的内容浓缩为一个简洁、流畅、并能反映主题内容的摘要。该技术能够大大提高人们获取信息的效率,近年来一直是自然语
随着全球经济技术的发展和Internet的普及,企业的通信需求已经趋向多元化。传统PBX(用户级交换机)己经难以适应现代企业的发展模式和增长需要,而IP-PBX符合下一代网络融合的
人类基因组工作草图绘制完成后,生命科学已进入后基因组时代,结构生物学正处在具有战略性的关键地位,研究蛋白质的结构与功能,特别是蛋白质的三维结构,是揭示基因组功能的基本途径
虚拟技术的发展带给IT安全领域很大的机遇和挑战,在虚拟化架构下对虚拟机进行监控成为十分必要的安全管理方式。本文在此背景下提出利用Xen虚拟化技术对虚拟机内运行的进程进
随着互联网上信息资源的日益增多,用户对个性化服务的要求不断提高。协同过滤推荐技术是个性化服务发展中最成功且应用最广泛的推荐技术之一,然而,出于隐私考虑,许多用户不愿
受到免疫原理的启发,本文提出了三种基于人工免疫原理的病毒检测算法,目的是构建一个轻量级的、具有较快检测速度、较高检测率而且有一定泛化能力的病毒检测系统。   基于
三维模型处理技术广泛应用于计算机辅助设计、虚拟现实等众多领域。随着计算机软硬件技术的高速发展以及精密测量技术的出现,三维模型处理技术得到了快速地发展,同时也面临着新
图像有广泛的应用,基于内容的图像检索(Content Based Image Retrieval,CBIR)是数据库、多媒体技术的研究方向之一,近年来已成为国内外研究热点,并将成为21世纪必须攻克的关键技
传统的视频监控系统有许多缺点,例如大部分只能在监视器上提供一幅监控场景的画面,有的即使能够把多路视频显示在一个监视器上,也不能为用户在一幅画面上无冗余地提供被监控
学位