基于卷积神经网络的压缩视频质量增强方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:win13790
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对于视频清晰度和分辨率的需求变化,如何高效压缩以储存和传输视频成为了亟待解决的问题。为了解决该问题,视频编码联合组提出了新一代的视频编码标准:高效视频编码(High Efficient Video Coding,HEVC)和多功能视频编码(Versatile Video Coding,VVC)。新的编码标准能够提升视频编码效率,成功地去除了视频中存在的时间和空间冗余。但是新编码标准在最大限度去除视频冗余的同时,会不可逆地丢失视频的原始信息,对视频主客观质量造成了严重的负面影响。因此,为了提升压缩视频质量,本文从视频特性和现有方法不足出发,基于卷积神经网络,提出了两种压缩视频质量增强方法,其主要工作如下:(1)根据对压缩视频的分析,视频编码中亮度分量的采样率通常高于色度分量的采样率。因此,亮度分量的质量对于压缩视频整体质量增强是十分重要的。现有方法均忽略了这点。所以,本文提出一种基于自指引卷积神经网络(Self-guidance Convolutional Neural Network,SGCNN)的压缩视频质量增强方法。该方法通过将提取出的亮度分量噪声估计图作为指引信息,指引视频去失真过程中的噪声图重建,最终获得高质量的增强视频。大量实验结果表明,该方法的质量增强效果比现有方法具有更明显的增益。(2)在压缩视频中,压缩失真可以分为两类:全局失真和局部失真。当使用单一网络对两种失真进行去除时,通常会因为感受野单一和模型的特征区分能力不足等原因,使得最终去除局部失真时丢失大量的细节特征。因此,为了解决该问题,本文提出一种基于细节补偿卷积神经网络(Detail Compensation Convolutional Neural Network,DCCNN)的视频增强方法。通过将不同尺度的细节特征补偿回退化的视频中,最终获得细节丰富的高质量增强视频。最后,通过大量实验结果验证,DCCNN方法对比现有方法具有更高的增强表现。
其他文献
目前,通信技术的相关应用已经广泛的服务于人们的生产生活,而无线系统的资源优化技术又是通信领域的研究重点。相较于传统的蜂窝系统,超密集网络拥有更丰富的基站资源,可以为用户终端提供更高质量的服务体验。然而,密集部署的基站不仅带来了严重的小区间干扰,而且容易导致基站出现空载或过载现象。此外,通信环境的参数瞬息万变使得传统功率分配算法难以在实时场景中应用推广。本文针对上述问题进行了研究,提出了超密集无线网
学位
随着网络技术的快速发展和图像获取设备的日益普及,丰富多彩的数字图像成为传递信息的重要媒介。虽然数字图像给人们生活带来便利,其背后也潜藏着安全隐患。因此,如何保护好数字图像的完整性和真实性,是数字图像取证领域将要面对的巨大挑战。尤其是近几年GAN在图像领域取得的巨大成功,其生成的能够以假乱真的高清图像更是引起了相关领域各位专家学者的高度关注。挖掘自然图像与GAN生成图像之间存在的差异进而精准高效地鉴
学位
终端直通(Device-to-Device,D2D)通信可以不通过基站转发,建立直接通信链路,实现用户的信息交互。D2D用户以复用模式工作,能有效减轻基站负荷,提升系统吞吐量,但同时也会产生同频干扰问题。此外,引入中继技术,可有效解决D2D对无法直接通信的难题。因此,本文针对同频干扰和中继选择问题,对D2D对的信道分配、中继选择和功率控制进行研究,主要内容包括:(1)针对信道分配中,多个D2D对复
学位
Deepfake伪造人脸对信息的可信度、可靠性和安全性构成了极大的威胁。不法分子利用人脸交换技术生成伪造图像和视频误导群众,造成了不良影响,甚至引发恐慌。为了抵制虚假信息的传播,Deepfake检测技术受到广泛关注。现有的视频检测方法为避免数据冗余、节约计算资源,大多是随机选取视频的多帧或部分段作为检测对象。然而,这种选择策略会降低检测对象的表征能力,性能也会受到限制。因此我们提出了一种用关键帧代
学位
由于中国不同地区气候的多样性,准确的气象监测有助于国家防灾减灾,其中,降雨和水汽监测在气候研究领域占有重要地位。目前,毫米波链路测量降雨和水汽成为新的监测技术,可以为气象监测提供高精度的数据。该研究利用搭建在中国南京市与河北香河县的E波段毫米波测试链路采集数据,通过气象要素与毫米波衰减的关系计算出降雨强度和水汽密度,然后将研究结果与实测值对比分析。主要研究内容包括:(1)分析了微波链路监测降雨和水
学位
在大数据时代,公司和机构已经注意到多维数据的巨大价值,并且极力地收集高维众包数据以做出数据驱动的决策。然而,这些多维数据往往包含着数据拥有者的敏感信息,如果数据拥有者直接分享自己的多维数据,则会引起隐私泄露的问题。近年来,本地差分隐私被发现在收集和使用数据拥有者的数据并保护其隐私方面有实用价值。在本地差分隐私方案中,数据拥有者在数据外包前会先对其进行扰动,然后将扰动后的数据发送给服务器。如此,服务
学位
随着互联网、传感器网络、数据通信技术的不断发展成熟,各行各业都产生了大量的数据,对于大数据挖掘技术的需求也越来越迫切。在众多应用场景中,数据都是陆续到来、数量无限且随时间变化的,学术界将这种数据形态定义为“数据流”,数据流挖掘技术因其较高的应用价值,在学术界掀起了广泛的研究热潮,本文研究的数据流分类就是其重要的分支。不同于静态数据集,动态变化的数据流中可能会伴随着概念漂移和新标签问题,严重影响了分
学位
文本分类是自然语言处理中的一个基本问题。其核心是从文本中抽取出能够体现文本特点的关键特征,并设置一个从抓取特征到类别之间的映射关系。基于文本的特性,文本分类主要由短文本分类和长文本分类这两类构成。短文本分类是指对话题或者评论这种字数偏少,句式结构有缺省的文本进行分类,其需要关注的特征为有明显情感倾向的词特征和句特征。长文本分类是指对文章或者新闻这种字数偏多,句式结构完整,上下文联系很大的文本进行分
学位
信息隐藏是将秘密信息隐蔽地嵌入到通信载体中,进行公开传输的一种隐蔽通信方式,可以实现秘密信息悄无声息地秘密传输。由于图像本身存在较大冗余且容易获取,图像隐写成为信息隐藏的主要方式。把秘密信息隐藏到图像高频细节区域,减少图像视法被广泛研究,主要包括获取载体图像、设计失真函数、生成含密图像三个方面,已经产生了丰富的研究成果。本文针对基于隐写失真设计的图像隐写方法展开研究,该类方法在嵌入秘密信息后,图像
学位
行人重识别是计算机视觉领域非常热门的研究课题,其在视频监控、智能安防等领域发挥着重要作用。由于行人身份标注的困难,目前只有无监督行人重识别能够适用于大规模现实应用,但由于不同场景下拍摄角度、人物姿态和光照环境等因素的变化,所得图像数据域的分布也不一致,导致无监督模型性能表现并不理想。本文对传统的基于字典学习的无监督行人重识别模型进行改进,除了学习过完备的视觉语义字典,还引入非对称投影用以消除不同摄
学位