基于加权预测和自适应量化的感知编码技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jukai9751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着视频应用愈发广泛,视频数据量爆炸式增长。视频数据量的急剧增加造成视频在存储及传输中面临巨大压力,因此对视频压缩效率的要求不断提高。国内外视频编码标准组织在上述背景下,不断为视频编码流程中的各功能模块提出更为高效的编码技术,以提升视频压缩效率。现有传统视频编码标准中所采用的编码技术,主要以提升客观性能指标为目标,而感知视频编码技术可在传统视频编码标准基础上,结合人眼视觉感知特性进一步去除视频中的感知冗余信息。因此本文基于高效视频编码(High Efficiency Video Coding,HEVC)标准,结合可反映人眼对失真感知程度的恰可察觉失真(Just Noticeable Distortion,JND)阈值估计模型提出感知视频编码优化算法。一方面,为降低编码残差数据所需的码率,本文提出基于加权预测的帧内感知残差滤波算法。首先考虑到HEVC现有帧内预测技术预测准确性有限的情况,该算法采用加权预测技术,通过利用更多的参考像素及其组合方式,提升帧内预测的准确性;然后,在采用加权预测得到的帧内预测残差基础上,结合JND阈值估计模型设计残差滤波器,对残差信号中难以被人眼视觉系统(Human Visual System,HVS)感知的部分进行滤波,以去除其中的感知冗余信息。另一方面,HVS在一定码率范围内只能感知到有限且离散的视频感知质量层级,考虑到量化作为视频编码过程中影响码率和失真的关键技术,本文提出基于感知的自适应量化算法。首先通过结合JND阈值估计模型和HEVC编码失真估计模型确定帧级感知量化参数;其次,由于HVS对不同视觉特征的区域具有不同的感知敏感度,因此结合JND阈值估计模型,在帧级感知量化参数的基础上确定编码单元(Coding Unit,CU)级感知量化参数,以进一步去除视频中的感知冗余信息,实现视频压缩效率的提升。综上,基于HEVC视频编码标准,本文所提出的感知视频编码优化算法,在预测阶段提出加权预测技术,提升帧内预测准确性,降低预测残差幅值,并在该预测残差基础上,结合JND阈值估计模型设计残差滤波器,对残差信号中难以被HVS感知的部分进行滤波。而在量化阶段,结合JND阈值估计模型和HEVC编码失真估计模型确定各帧与各编码单元CU所使用的感知量化参数。本文所提出的算法通过对编码过程中不同处理阶段的优化,最终实现视频压缩效率的提升。本文对所提出的基于加权预测的帧内感知残差滤波算法和基于感知的自适应量化算法进行实验验证。根据实验结果显示,基于加权预测的帧内感知残差滤波算法AllIntra(AI)配置下,与原始编码器HM16.17具有相近感知质量的同时,具有6.23%的码率节省。基于感知的自适应量化算法在AI,Low Delay B(LDB)和Random Access(RA)三种配置下,在无明显感知质量下降的条件下,分别可实现22.37%,15.92%和10.87%的码率节省。两者联合仿真实验显示,整合上述两个算法后,在AI配置下可实现25.05%的码率节省。
其他文献
报纸
面部表情在人类沟通交流中发挥着重要的作用。随着人们对人机交互要求的提高,自动识别与理解人脸表情成为研究热点,其中基于深度学习的人脸视频表情识别由于其优越性能受到大批研究者关注。目前为止,大量工作针对特定表情强度顺序的视频片段,如中性帧-峰值帧,展开研究且取得了良好的性能。然而,在实际应用场景中,如何获取到与训练数据分布接近的特定表情强度视频片段仍有待研究。同时,测试时自动截取的视频片段不可避免与训
学位
脑动脉瘤是脑部动脉血管局部凸起或膨大形成的类似瘤状的物体,其对应位置血管壁较薄,破裂风险高,一旦破裂容易导致颅内出血并威胁生命。目前医学上常用的快速诊断脑动脉瘤的技术是计算机断层扫描血管造影(CTA)。该项技术在带来快速成像的便利(广泛用于急诊)的同时,也包含了复杂的背景噪声,这增大了放射科医生阅片的难度。面对机器获取到的复杂3D CTA影像,放射科医生往往需要花费较长的时间进行阅片诊断。对于一些
学位
近年来随着深度学习的兴起,图像处理分析的研究日新月异,在许多领域取得了瞩目的应用和研究进展。在医学临床实践中,患者影像数据是诊断治疗的重要参考,大规模的医疗影像数据处理分析需求与日俱增,自动化的影像分析工具和算法具有重要的临床实用价值。在医学图像分割任务中,医学影像常常面临图像数据对比度低,组织器官边缘模糊且难以分辨,导致图像分割过程中容易出现类内不一致和类间不易区分的问题,进而损害分割结果的完整
学位
通过耦合基于反应类的全局敏感性分析方法、组分敏感性分析方法、解耦法及遗传算法,构建了RP-3航空煤油模型燃料(14%正癸烷/10%正十二烷/30%异十六烷/36%甲基环己烷/10%甲苯,摩尔分数)的简化反应机理。以甲基环己烷为例(其它组份类似),详细论述了其骨架反应机理的构建过程。采用基于反应类的全局敏感性分析方法,对甲基环己烷的燃料相关子机理中重要反应类进行了识别,并基于组分敏感性分析方法对重要
期刊
视频目标分割和补全是计算机视觉领域的重要问题,其目的在于对视频中的特定目标进行像素级跟踪和补全被遮挡部分,它是视频编辑、无人驾驶、影视特效生成等应用中的关键技术。视频目标的分割和补全这两个任务的共性在于其都需要一部分已知的目标信息(第一帧目标掩码和目标可见部分)去推断后续帧目标位置和当前帧目标被遮挡的外观,如何利用视频中的时序信息和目标的内在结构等先验信息来设计对应任务的深度神经网络是本文的主要研
学位
免疫失衡机制在慢性荨麻疹的发病机制中占据主导地位,既往认为Th1/Th2失衡是慢性荨麻疹发生的主要免疫机制。但近年来,研究发现Th17/Treg失衡亦是导致慢性荨麻疹发生的重要免疫机制。中医对慢性荨麻疹病因病机的认识比较全面,一般多认为其发病多为先天禀赋不足,卫表不固,复感六淫之邪;或饮食失节,积热生风;或久病虚弱,气血失养。故治疗上,实证宜疏风散邪,清利湿热;虚证宜补益气血,扶助正气;虚实夹杂则
期刊
时下,人们对视频服务的要求越来越高,对超高清、高帧率、沉浸式视频的需求日益增长,随之而来的便是海量视频数据存储和传输的巨大挑战。尽管在5G时代中,网络传输速率更快,但通过提升视频编码技术性能,更高效的压缩海量视频数据,才是解决存储和传输问题的根本。由于时域相关性是视频信号最重要的特性,因此帧间预测编码成为了视频编码的核心。高效视频编码(High Efficiency Video Coding,HE
学位
随着计算机技术的快速发展,人工智能热潮迅速兴起。自动驾驶、移动机器人和无人机导航避障等技术成为研究热点。这些智能化应用往往需要使用相机去感知场景中物体的运动信息和绝对深度信息,即通过预测连续时刻图像稠密的光流,获取场景中物体的运动信息;通过预测双目相机左图和右图的视差,计算场景的绝对深度。这些信息既可以作为无人驾驶和自主机器人的指导信息,也可以用于场景的三维重建与增强现实等领域。在现有的光流和深度
学位
随着人工智能技术的蓬勃发展,机器智能水平不断提升,人机协作场景的应用越来越受到人们的关注。在人机协作应用中,人和机器位于同一场景中互相合作,不仅要求机器智能被动执行人的指令,更希望实现机器智能对人类行为意图的主动观察和理解,以实现自然交互与协同工作。但是,人类行为意图属于高级语义层面,对其进行计算和预测是一项非常具有挑战性的难点问题。考虑到在一般情况下,人的思维意图和人的视觉注意行为息息相关。因此
学位