论文部分内容阅读
由于具有强烈的沉浸感、逼真的效果,三维视频受到越来越多的关注。电路设计、网络传输、信号处理以及视频编码技术的快速发展,促使其广泛应用于各个领域。多视点彩色加深度(Multi-view Video plus Depth, MVD)作为三维视频最常用的场景描述格式,对网络带宽、终端存储能力以及各视点压缩效率要求很高。多视点视频压缩主要是去除空域冗余、时域冗余和视点间冗余,然而视频中还存在大量的感知冗余。研究人员正在将人眼视觉系统(Human Visual System, HVS)的感知特性加入到视频编码中进一步提高视频的压缩效率。但目前的视频感知编码大都未考虑感知模型的复杂度,以及没有合理的多视点视频感知模型。另外,视频逐渐向高分辨率方向发展。而针对高分辨率视频的高效视频编码标准(High EfficiencyVideo Coding, HEVC)巨大的算法复杂度使得其发展受到限制。基于上述分析,文章对基于感知的三维视频编码以及HEVC的算法优化展开了深入研究。(1)由于人眼的感知特性非常复杂,因此基于感知特性建立的感知模型也特别复杂。但许多研究工作没有考虑感知模型的复杂度对整个算法复杂度的影响。针对上述问题,文章根据运动剧烈程度将视频划分成静止、缓慢运动和剧烈运动三类区域,结合时域相关性建立了快速求取感知掩膜的模型。静止区域的感知掩膜可从前面帧的感知掩膜拷贝;剧烈运动区域的感知掩膜难以使用前面帧的感知掩膜准确预测,因此只能重新求取;而缓慢运动区域的感知掩膜可以使用前面帧的感知掩膜预测。最终的实验结果表明,与传统求取感知掩膜的算法相比,该方法在峰值信号感知噪声比不下降的前提下,有效减少77.54%-84.60%的编码时间。(2)研究人员提出了许多单视点视频感知模型,但多视点视频具有双目融合、竞争及抑制等,因此不能将单视点视频感知模型简单地拓展到多视点视频中。针对上述问题,文章利用立体掩蔽效应及恰可察觉失真(Just Noticeable Difference, JND)模型建立了非对称立体视频感知模型。大量的实验结果表明,在保证解码视频主观质量基本不变的前提下,右视点视频的码率降低11.45%-18.69%。(3)为了解决高分辨率视频压缩后数据量庞大的问题,视频编码联合合作组(Joint Collaborative Team on Video Coding, JCT-VC)正在制定HEVC。该标准主要通过适当提高算法复杂度提高视频的压缩效率,但该方式限制了HEVC的应用。针对HEVC算法复杂度高的问题,文章提出了自适应确定编码单元(Coding Unit, CU)深度范围的方法。该方法利用空间相关性自适应地确定CU最可能的深度范围,从而降低编码复杂度。同时,文章根据CU编码后同一层分割CU和该层所有CU率失真代价(Rate Distortion Cost, RDCost)的概率密度函数建立了合适的模型,根据设定的视频质量下降自适应地获得CU提前终止对应的RDCost。另外,文章分析了备选模式列表(Candidate Mode List, CML)中第一个模式与最佳帧内预测模式的关系,提出了一种重新确定CML的方法,该方法通过有效减少CML中备选模式数目降低率失真优化(Rate Distortion Optimization,RDO)过程的复杂度。大量实验结果显示,文章提出的上述三种方法在保证解码视频质量的前提下,有效降低了帧内编码的复杂度。