面向通话视频的感知编码优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wkan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通信技术,网络媒体的迅速发展,视频通话成为人们生活中使用越来越广泛的应用技术。通话视频信号具有庞大的数据量,在实际应用中必须经过压缩之后才能进行传输与存储。因此人们看到的通常是解压之后的重建视频信号。一般来说,使用同一编码技术,越高的压缩比对应着越低的重建视频质量。现如今,视频通话的在线用户量不断攀升,用户对视频质量的要求也日益提高,尽管多媒体处理器计算能力不断增强,存储容量不断增大,网络带宽不断提高,却依然满足不了不断增长的用户需求。同时,由于视频通话具有高度实时性编码的要求,高效的编码算法就显得尤为重要。因此,如何利用有限的带宽资源,最大限度的满足用户对通话视频质量的要求成为一个很有意义的研究课题。本文分别从如下三方面对系统进行优化。  (1)针对现有编码系统中对视频中人脸的长时相关性未充分利用的问题,提出一种基于在线学习的脸部失真修复算法,实现大幅提升通话视频脸部视觉质量的效果。在现有的编码系统,通常将相邻的几帧作为当前编码帧的参考帧来利用,而整段视频甚至是多段视频之间的相关性没有被充分的利用。一般的,在视频通话中,参与对象是保持不变的。在编码端,可以得到原始的高质量通话视频。本文从原始的高质量视频信号中提取出用于训练的数据单元,通过聚类的方法,建立用户的人脸特征数据库。并且,为了适应用户的表情变化,构建了数据库的在线更新模型,使得数据库能够包含用户的新的表情,更有效的用于改善解码端重建视频脸部视觉质量。在解码端,可以得到重建后的失真视频。修复系统用人脸特征数据库中的高视觉质量的信号替换低质量的失真信号。替换算法利用失真视频自身特性并最大限度的利用特征数据库。同时,采用了Hash表的结构进行快速搜索,满足通话视频的实效性要求。预期相比现有算法,能够大幅提升通话视频脸部的视觉质量。  (2)针对现有编码系统的帧间预测过程中未能利用旋转、缩放等复杂运动的问题,提出一种基于人脸对象的参考帧动态调整策略,实现脸部区域更精准的帧间图像预测和编码码率节省。具体地,本文在HEVC的基础上设计了一种改进的视频编码系统。不同于基于块和基于分割的方法,本文将视频帧中的人脸对象作为一个整体考量,并计算出该脸部对象的一个全局的精确的仿射变换运动向量。不管人脸的表情和光照姿态如何变化,文本的方法都能很好的适应,并选出一个最优的变形参考帧,将其加入到参考帧列表中。通过参考帧列表的动态调整策略,使得人脸对象的复杂仿射变换能够在预测环节中得到使用。具体来说,本文首先检测当前帧中的人脸对象,并将已经编码的图像与当前帧做人脸对齐,并将新得到的对齐图像加入到参考帧列表当中去。通过新增加的参考帧,有效的预测了当前帧的缩放,旋转平移变换,使得在帧间编码时,能够得到更小的预测后残差矩阵。为了在解码端也能使用新增参考帧,本文将图像的仿射变换参数放到条带头信息中编码,目的是保持解码端最小的改动。实验证明,本文的方法能有效提升脸部区域的编码率失真性能。  (3)针对编码系统的固定率失真系统未能充分考虑到人的感知特性和视频内容不同的问题,提出一种基于视觉感知的动态率失真优化方法,达到在同等视觉质量下有效降低码率的效果。首先,本文提出了一种新的基于视觉感知的失真度量方法。失真度量模型使用Gabor滤波器将传统的空域上的失真信号转换到频域上进行处理。这种设计对应于人的视觉系统中,不同部位的视网膜细胞只接收特定频率内容的机制。同时,引入运动信息,对失真进行加权处理,建立更符合人视觉失真感受的失真度量。另一方面,考虑到不同视频序所需编码比特率不同,而现有编码系统仍是使用静态拉格朗日乘数的问题,本文建立基于内容的自适应率失真优化模型。模型引入了能够表征视频内容特征的变换残差标准差,结合基于视觉特性的失真度量,探索构建一个更符合人的视觉感知的动态率失真优化的模型,自适应的调节视觉失真与码率之间的平衡。同时,将人脸作为重点关注度区域,在保证视觉质量的条件下,更合理地分配有限的码率资源。
其他文献
本文主要分析研究了针对百度搜索引擎的排名因素及其影响力,同时给出了相应的优化建议,并横向对比研究了目前国内的三大搜索引擎:百度、谷歌和360搜索引擎。  对于目前影响百
充分考虑跨平台能力的数控系统,具有较强的灵活性和可配置性,能够很好的兼容不同生产厂商的软硬件模块、实现动态选配和集成,满足用户的多种需求,提高产品竞争力。由中科院沈阳计
模拟演练系统是通过计算机相关技术对各类突发事故、灾害事件进行数值模拟和人员行为模拟的信息化平台,它允许用户在逼真的仿真环境下开展应急演练工作。相比于传统表演式的演
随着现代制造业的蓬勃发展,复杂模具和高精度机械零部件的需求日益增加,制造业对五轴数控机床加工的性能和效率的要求不断提高,同时,国家也加大了对五轴数控机床关键技术的研究力
目前国产数控系统多采用传统的文本编程的方式,要求用户熟练掌握数控系统的各种编程指令,编程效率较低,且对于复杂曲线曲面的加工零件,计算繁琐,工作效率低,编程复杂,校对困难。图形
集中式接入网络将基站计算资源进行物理集中,通过集中调度实现对资源的统计复用,从而提升整个架构硬件利用率和比特能效。然而,由于基带物理层计算资源的异构性、算法模块间依赖
在图像处理和图像分析领域,消除噪声是一个长期存在的问题,也是图像恢复研究领域的经典难题。除了传统的滤波去噪方法之外,小波变换和偏微分方程方法都是近二十年来较为流行的图
随着时代的发展人们所做的决策受到的影响因素越来越多,导致我们在做决策时无法直观或直接的进行。影响图的出现直观地描述并解决了这些问题。影响图不同于决策树,它给出了各个
可编程逻辑控制器(Programmable Logic Controller,PLC)是数控系统中重要的一部分,用于实现机床的辅助功能。随着开放式数控系统的发展,传统PLC封闭的系统结构与数控系统的开放
随着互联网和物联网时代的相继开启,我们已于不觉间置身于“大数据”时代。为充分挖掘这些数据的价值,种类繁多的数据分析技术应运而生,且不同应用的数据处理模式大相庭径。与此