面向压缩失真视频的质量增强算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:aiwaner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着立体视频等应用的兴起,视频信号的数据量越来越大,给存储和传输带来了沉重负担。在存储或传输之前,视频信号通常会被压缩。主流的视频压缩算法,在变换与量化等模块中引入失真,压缩数据的同时也影响压缩后视频的质量。如何在尽可能降低数据量的同时保持尽可能好的视频质量是视频编码的永恒话题。为此,视频质量增强算法被研究者们引入到视频编码中,其中基于神经网络的方法近年来成为了智能编码优化的研究重点,目的是提高解码后视频的质量,提升编码效率。然而,目前压缩视频的质量增强算法仍然存在一些局限性:1)大部分方法仅依赖于从压缩后视频中提取的特征,对视频压缩的编码器中一些重要参数和特征的利用不足;2)已有的多数研究工作只针对自然场景的视频特性进行设计,而屏幕视频具有一些与自然场景不同的特点,如结构复杂、边缘尖锐等,使已有方法提取的特征不适用于屏幕视频的部分内容,从而导致算法的性能受限。为此,本文针对通用的自然场景,研究利用编码器中的参数与特征,提升质量增强算法的性能。接着结合屏幕内容的特点,将其拓展到屏幕视频中。主要内容如下:1)针对自然场景的压缩视频,本文提出一种编码失真先验引导的质量增强算法。考虑到压缩失真受预测残差信号和变换量化的共同影响,算法综合利用了残差信号、量化参数和重建图像等失真相关的先验信息。算法通过建立块级失真估计模型来更准确地估计压缩失真的分布,从而指导神经网络模型滤除失真。与基线VTM-7.1相比,算法的峰值信噪比提升0.29 d B,可以在相同视频质量下节省5.92%的码率。2)针对屏幕内容的压缩视频,本文提出一种基于区域掩码和多级滤波决策的质量增强算法。算法通过扩展增强模块的通道来处理文字图形等内容,然后基于图像的区域信息构建掩码模型,为不同区域选择不同的质量增强通道。此外,本文还提出基于率失真优化的多级滤波开关决策模型。与基线HM-16.20+SCM-8.8相比,算法的峰值信噪比提升0.43 d B,相同视频质量下可以降低3.63%的码率。
其他文献
三维目标检测作为计算机视觉领域中重要的一部分,它在很多领域中起到了重要的作用,例如自动驾驶和智能机器人等领域。近些年,随着研究的不断深入,多个公开的三维目标检测数据集被提出,促进了三维目标检测技术的发展进步。基于三维视锥的方法是三维目标检测任务中一种具有代表性的方法,其通过二维目标检测框获取三维视锥点云数据,缩小了三维搜索空间。然而当前基于视锥的方法仍然存在特征提取能力不足和难以处理一个视锥中存在
学位
随着深度学习的不断发展,场景文本检测和端到端识别领域取得了较大的进展。然而现有算法主要关注于复杂形状、语种多样性等难点,却忽视了由场景文本形状多样性带来的昂贵标注成本。相比图片分类任务的Image-Net数据集(1419万张图片),场景文本任务常用的高质量真实数据集图片较少,通常仅有一千张左右。然而,在实际应用中,往往需要十万、甚至百万的真实数据进行训练才能取到较高的文本检测识别性能。因此,减少场
学位
在公共交通区域进行监控是提供可靠保障的必要措施,而行人作为监控视频中的核心,如何准确地识别出行人身份,及时了解场所中行人的身份变化成为一大挑战。同其他用于身份识别的生物特征相比,步态特征具有独特的优势,即在远距离或低视频质量情况下的可辨别能力,步态识别也因此成为研究热点。步态识别算法的常用输入数据是轮廓图,轮廓图主要展现的是人体的外观特性,而步态的特征不仅包含人体的外观特性,还包含行走过程中的运动
学位
在信息呈爆炸式增长的互联网时代,人们需要处理的数据日趋增多,往往通过自然语言处理(Nature Language Processing,NLP)中一项基础任务——命名实体识别(Named Entity Recognition,NER)从大量非结构化文本中挖掘出有价值的信息。该任务旨在提取文本中具有特定含义的实体并将其分类为预定义的类型,例如人名、国家名、军事武器名等。近年来大部分NER研究只针对文
学位
在城镇化快速发展过程中,人口流动愈加频繁,由于公共空间有限,大量人口的涌入引发的社会公共安全问题日益突出。特别是在公共场所,有可能引发严重的踩踏事故,危害人民群众的生命财产安全。因此,如何有效地预测场景中的人群数量已经成为了最近计算机视觉领域的热点研究问题。随着深度学习和计算机视觉的快速发展,许多密集人群数量自动估计(人群计数)算法陆续被提出。由于密集场景下给每个人头标注包围盒是费时费力的,因此大
学位
目标检测是计算机视觉领域中的基础任务,旨在对图像或视频中的物体的进行分类与定位,在人脸识别、行人追踪、光学字符识别、对地目标追踪等领域具有重要价值。在基于深度学习的目标检测算法中,往往会先生成大量的包围盒,然后对这些包围盒进行排序和筛选。先前的算法默认采用分类分数作为排序和筛选的依据,但分类分数与包围盒质量相关性较低,无法代表包围盒定位质量。在目标检测算法中广泛采用交并比来衡量矩形之间的相似程度,
学位
视频修复是计算机视觉领域中近几年来热门的研究课题,在视频直播、短视频制作、自动化视频剪辑等领域有众多落地应用场景。得益于深度学习技术在计算机视觉领域中的蓬勃发展,视频修复技术也取得了长足的进步。然而,当前的视频修复算法框架都默认用户已经有了前置的视频目标分割结果,造成了算法在面向用户的时候交互不够友好,也导致了落地应用的局限性。另一方面,前置视频目标分割算法的好坏也对视频修复任务的效果有着明显的影
学位
多模态医学图像分割在临床诊断中发挥着重要作用。多模态数据已被证明可以从不同层面提供有关解剖结构的互补信息。有效结合多模态数据可以提高医学图像分割性能。近年来,基于深度学习的多模态分割方法取得了显著的进展。然而,现有方法通常简单地结合不同模态的特征,难以充分建模复杂的模态间依赖关系,且忽略了噪声和模态间差异的影响,使得多模态互补信息没有得到很好的利用。本文在配对多模态图像和不成对多模态图像两种场景下
学位
弱监督图像分割是计算机视觉中的一个重要任务,它能够有效的减少分割任务中标注工作量和标注成本。机器学习中弱监督的定义可进一步细分为不确切监督、不完全监督及带有噪声的监督。图像分割任务中的弱监督通常只包含少许像素的监督信息,本文核心研究思路是将这些稀疏的监督信息传递给图像中其它像素以实现准确的弱监督图像分割,并完成了如下工作:(1)针对弱监督图像语义分割中初始语义图监督信息稀疏问题,本文提出了深度图割
学位
三维场景理解是自动驾驶、智能机器人等人工智能技术应用的核心需求。本文主要研究三维场景理解中的两个重要三维信息的估计方法,即表征三维场景结构的深度估计和表征三维场景动态信息的三维动态目标分割。由于三维信息在不同时刻下的观测具有时序一致性,如何利用时序上的运动信息(光流、场景流或者位姿)辅助三维信息的估计成为当前研究的热点方向。本文分别基于相机传感器和激光雷达传感器进行研究,设计三维信息与运动信息的联
学位