高效率视频编码HEVC的优化研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:linqaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前时代,视频无时无刻存在于世界的每一角落,电视中、网络上、手机中、大街上,人们随时都在看着各种内容的视频。从图像内容的角度来说,视频可以被分解为一连串的图片,其包含的信息量是巨大的。直到目前为止,还没有一种系统可以大规模的储存和播放原始视频码流信息。因此对视频进行压缩成为了一种必然。视频编码的目的就是尽最大的可能性去除视频码流中的冗余,使得视频内容方便储存,播放。HEVC(High Efficiency Video Coding)视频编码标准是由 ITU-T(ITU Telecommunication Standardization Sector)和 ISO(International Organization for Standardization)组织成立的联合工作组 JCT-VC(Joint Collaborative Team on Video Coding)所推出的最新的视频编码标准。在ITU-T标准中,HEVC又被称为H.265标准。HEVC的目标是采用2到4倍于H.264/AVC的复杂度,在同样的编码质量下,取得H.264/AVC码率的一半。就目前的进展来说,HEVC标准基本达到了其设计目标。但是在实际应用中,HEVC仍然面临着复杂度过高的缺点。在使用HEVC的官方测试平台HM(HEVCtestmodel)对1080p格式的视频进行随机接入格式(RandomAccess)的编码时,编码一个帧间帧的时间经常高达几分钟时间。这么长的时间在实际的应用中是不能接受的。这也说明,HEVC编码器在压缩复杂度方面有着很大的研究空间。本文主要研究了 HEVC编码标准中的若干关键技术,针对一些耗时的编码技术,本文提出了一些节约压缩编码时间的方法。在实验中,这些方案均不同程度的减少了 HEVC编码的复杂度。为编码器的设计提供了新的思路。本文的主要成果分为以下几个方面:第一,对HEVC中新加入的基于四叉树的图像划分结构进行了研究,提出了两种能大幅度减少编码时间的解决方案。为了应对高分辨率视频编码,HEVC编码标准引入了基于四叉树的画面内容分割技术。这一技术使得编码器既可以适应有着大块平坦区域的高分辨率视频,也可以适应有着丰富细节的视频内容。但在提高编码性能的同时,这一技术也引入了较高的编码复杂度。本文针对图像划分结构复杂度高的问题提出了两种解决方案。两种方案中一种基于直方图估计,需要在编码的过程中在线学习,对CU结构给出预测;另一种方案基于Adaboost,只需要预先学习,就可以在编码的过程中对CU结构给出预测。仿真结果说明,这两种方案都可以在几乎不影响编码质量的前提下,大幅度减少编码时间。第二,对帧间编码中的运动搜索技术进行了研究,提出了一种自适应决定运动向量搜索范围的算法。运动搜索技术是帧间编码的核心,也是视频编码中最耗时的模块之一。本文提出了一种自适应决定运动向量搜索范围的算法。该方法采用K近邻算法,综合了如运动预测误差等若干种特征,可以在编码的过程中动态的给出当前块运动向量搜索范围。该方法在HEVC的实验模型HM下得到验证。实验表明,本方法节约了运动搜索的时间,降低了帧间编码的复杂度。第三,对HEVC中特有的Merge编码模式进行了研究,提出了一种快速Merge模式。由于在编码高分辨率的视频时,即使CTU(Coding tree units)块的大小为64x64像素,块与块之间的相关性还是很强。为了去除块与块之间的冗余,HEVC引入了 Merge模式,使得一个块可以直接采用旁边块的编码信息。在实际编码中,高分辨率视频采用Merge模式的概率比较高。利用这一特点,本文提出了一种快速Merge模式,该方法可以使得编码器动态地判断当前块是否可以直接采用Merge而不进行传统的运动搜索过程。由于运动搜索占用的搜索时间较多,跳过一定的运动搜索也就达到了减少时间开销的效果。实验表明,采用本文提出的快速Merge算法可以在BD-rate上升0.27%的代价下减少压缩编码时间10.9%。
其他文献
各种移动互联网业务为移动用户提供更加极致的用户体验,如虚拟现实、超高清3D视频、移动云雾等,同时这些业务也对高速传输提出了迫切的需求。然而,可用的频谱资源是有限的,按照现有的通信理论和技术框架,很难达到未来无线通信超大连接数、超高速率、超高可靠性、超低时延的要求,因此迫切需要在高频谱效率方面有突破性进展。在此背景下,李道本教授创造性地提出了具有颠覆性创新的重叠X 域复用(Overlapped X
随着移动互联网的发展,社会媒体(social media)已经成为人们获取信息、交换信息的主要场所,分析理解这些多模态社会媒体数据具有广泛的应用需求和应用价值。社会媒体数据呈现出底层特征异构、高层语义关联的特性。一方面,单一模态描述力不足,不同模态数据提供了不同层次的语义信息,并且互为补充,需要有效组织多种模态的数据,以真正反映社会媒体内容。另一方面,多模态数据处于异构特征空间,不同模态间的数据关
随着计算机视觉领域研究的深入,对象类图像分割(也称对象分割)逐渐成为近年来图像分析、计算机视觉领域研究的重要问题之一,并不断推动和促进互联网搜索、智能家电、智能交通和自动驾驶汽车等相关领域的技术和产业的发展。本论文主要依据贝叶斯理论并结合随机场模型,研究基于有监督的非参数化的对象分割模型及其算法。本论文的主要内容和创新点主要有以下几个方面,1.提出了一种新的基于分层狄里克雷过程的非参数化判别模型来
虚拟计算环境建立于开放的网络基础设施之上,通过汇聚互联网络中的计算资源、存储资源、网络资源等实现泛在、智能的公用化计算平台。作为一种新的实现形式,虚拟计算旨在为用户提供方便、快捷和有效的应用环境,为应用提供和谐、高效、可信的一体化服务支撑。与传统计算环境不同,公用环境网络资源的无序增长、高度自治和异构等特性,以及海量应用呈现出复杂、难以预知、多样等趋势,这些因素直接影响了虚拟资源与应用任务之间的精
云计算在给人们生活带来福利的同时,其自身的资源丰富、泛在接入等特性也容易被攻击者滥用以扩展其攻击能力和攻击范围。与普通网络环境中的网络攻击相比,攻击者可以更容易获取云资源对云外空间发起DDoS、Spamming等多种攻击,而且可以轻易地规避追责,这给云计算的可控性带来了严峻的挑战。云计算的不可控一方面伤害了云服务提供商的信誉,另一方面,也极大地损害了傀儡云租户以及攻击受害者的利益,因此,研究有效的
随着互联网的不断发展和普及,越来越多的用户可以通过互联网享受到各种各样的服务。然而用户对于网络服务质量的要求越来越高,他们需求的服务种类也越来越丰富。传统的互联网面临着越来越严重的僵化问题,无法满足用户不断膨胀的服务需求。覆盖网络作为改善传统互联网的重要手段,具有在不改变原有网络的前提下提供新型网络功能的特性。因此,覆盖网络常常被部署在传统网络上,用来提供各种各样的服务,例如对等网络服务、组播服务
受限玻尔兹曼机是一种随机神经网络生成模型,广泛应用于特征降维、协同推荐等任务中。近年来,以受限玻尔兹曼机为核心结构单元的深层信念网络、深层玻尔兹曼机等深层神经网络模型已成为一类重要的深度学习模型,在手写体数字识别、图像识别等任务中均获得了重要的进展。但是,目前常用的受限玻尔兹曼机学习算法对比散度(Contrastive Divergence,CD)是一种近似算法,其收敛性、学习速度、学习性能等理论
在量子信息科学中量子关联处于核心的重要地位,量子关联在量子通信、量子计算、量子测量、量子密码学的基础理论中都是一个重点研究对象,对上述四者的实现都不可或缺。因此,在过去的几十年中,量子关联被广泛的研究。高斯态作为连续变量的量子态中最重要的一类量子态在过去的十几年中也被进行了大量的研究,在量子光学的实验中应用到的大部分量子态都是高斯态中的一种。因此研究高斯态有着十分重要的意义。所以,对于高斯态的量子
随着计算机和网络技术的不断发展,人们在享受网上大量资源的同时,如何保证信息的安全已经成为一个亟需解决的问题。信息隐藏是信息安全领域的一项主要技术。图像和视频信息隐藏成为最常用的形式,一般指通过特定方式对图像和视频的数据进行修改,从而隐藏信息,在隐藏后,图像和视频的使用不受影响。半色调图像是一种特殊的图像载体,仅通过黑白两个颜色值来表示一幅图像。半色调图像中信息隐藏可分为两类:(1)网点水印:一幅半
共时多频多模系统是现代无线通信系统发展的趋势,而赋予系统独立调谐的能力可以使各通信标准之间互不干扰,互不影响。基于这个原因,发展多频段的射频微波器件势在必行,同时加入频带独立调谐特点,可以扩大共时多频电路的优势,使其更符合无线通信发展的要求。振荡器和压控振荡器作为无线收发机最重要的组成部分,可以为系统提供载波和时钟信号,也被广泛的设计成共时双频电路。本论文针对开关切换电路的非共时性问题,提出新颖的