论文部分内容阅读
近年来,随着通信技术,网络媒体的迅速发展,视频通话成为人们生活中使用越来越广泛的应用技术。通话视频信号具有庞大的数据量,在实际应用中必须经过压缩之后才能进行传输与存储。因此人们看到的通常是解压之后的重建视频信号。一般来说,使用同一编码技术,越高的压缩比对应着越低的重建视频质量。现如今,视频通话的在线用户量不断攀升,用户对视频质量的要求也日益提高,尽管多媒体处理器计算能力不断增强,存储容量不断增大,网络带宽不断提高,却依然满足不了不断增长的用户需求。同时,由于视频通话具有高度实时性编码的要求,高效的编码算法就显得尤为重要。因此,如何利用有限的带宽资源,最大限度的满足用户对通话视频质量的要求成为一个很有意义的研究课题。本文分别从如下三方面对系统进行优化。 (1)针对现有编码系统中对视频中人脸的长时相关性未充分利用的问题,提出一种基于在线学习的脸部失真修复算法,实现大幅提升通话视频脸部视觉质量的效果。在现有的编码系统,通常将相邻的几帧作为当前编码帧的参考帧来利用,而整段视频甚至是多段视频之间的相关性没有被充分的利用。一般的,在视频通话中,参与对象是保持不变的。在编码端,可以得到原始的高质量通话视频。本文从原始的高质量视频信号中提取出用于训练的数据单元,通过聚类的方法,建立用户的人脸特征数据库。并且,为了适应用户的表情变化,构建了数据库的在线更新模型,使得数据库能够包含用户的新的表情,更有效的用于改善解码端重建视频脸部视觉质量。在解码端,可以得到重建后的失真视频。修复系统用人脸特征数据库中的高视觉质量的信号替换低质量的失真信号。替换算法利用失真视频自身特性并最大限度的利用特征数据库。同时,采用了Hash表的结构进行快速搜索,满足通话视频的实效性要求。预期相比现有算法,能够大幅提升通话视频脸部的视觉质量。 (2)针对现有编码系统的帧间预测过程中未能利用旋转、缩放等复杂运动的问题,提出一种基于人脸对象的参考帧动态调整策略,实现脸部区域更精准的帧间图像预测和编码码率节省。具体地,本文在HEVC的基础上设计了一种改进的视频编码系统。不同于基于块和基于分割的方法,本文将视频帧中的人脸对象作为一个整体考量,并计算出该脸部对象的一个全局的精确的仿射变换运动向量。不管人脸的表情和光照姿态如何变化,文本的方法都能很好的适应,并选出一个最优的变形参考帧,将其加入到参考帧列表中。通过参考帧列表的动态调整策略,使得人脸对象的复杂仿射变换能够在预测环节中得到使用。具体来说,本文首先检测当前帧中的人脸对象,并将已经编码的图像与当前帧做人脸对齐,并将新得到的对齐图像加入到参考帧列表当中去。通过新增加的参考帧,有效的预测了当前帧的缩放,旋转平移变换,使得在帧间编码时,能够得到更小的预测后残差矩阵。为了在解码端也能使用新增参考帧,本文将图像的仿射变换参数放到条带头信息中编码,目的是保持解码端最小的改动。实验证明,本文的方法能有效提升脸部区域的编码率失真性能。 (3)针对编码系统的固定率失真系统未能充分考虑到人的感知特性和视频内容不同的问题,提出一种基于视觉感知的动态率失真优化方法,达到在同等视觉质量下有效降低码率的效果。首先,本文提出了一种新的基于视觉感知的失真度量方法。失真度量模型使用Gabor滤波器将传统的空域上的失真信号转换到频域上进行处理。这种设计对应于人的视觉系统中,不同部位的视网膜细胞只接收特定频率内容的机制。同时,引入运动信息,对失真进行加权处理,建立更符合人视觉失真感受的失真度量。另一方面,考虑到不同视频序所需编码比特率不同,而现有编码系统仍是使用静态拉格朗日乘数的问题,本文建立基于内容的自适应率失真优化模型。模型引入了能够表征视频内容特征的变换残差标准差,结合基于视觉特性的失真度量,探索构建一个更符合人的视觉感知的动态率失真优化的模型,自适应的调节视觉失真与码率之间的平衡。同时,将人脸作为重点关注度区域,在保证视觉质量的条件下,更合理地分配有限的码率资源。