基于卷积神经网络的图像插值滤波方法及应用研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:guozhi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及以及第五代通信技术的蓬勃发展,基于超高清图像、视频的应用受到了越来越多的青睐。受拍摄设备或者拍摄环境等因素的限制,往往无法直接获取到超高分辨率的图像或视频,进而需要通过超分辨算法进行后期处理。同时,与低分辨率图像、视频相比,超高清图像、视频内容包含的数据量骤增,如何进一步提高其压缩效率也成为当下的迫切需求。
  插值滤波方法在图像超分辨任务和视频压缩任务中均有关键作用。图像超分辨是对低分辨率图像进行插值滤波获得高分辨率图像的过程,插值滤波方法的性能决定了高分辨率图像的质量。在视频压缩任务中,可以采用插值滤波算法对整像素样本进行插值获取分像素样本,实现更高精度的分像素级的运动补偿。传统的基于信号处理理论设计的插值滤波方法很难以适应多元化的图像、视频内容和复杂的编码环境,其性能很难进一步提升。近年来,卷积神经网络在计算机视觉任务中得到广泛应用,尤其是在图像分割、超分辨等领域取得了巨大进步,这为插值滤波方法的研究提供了新的方向。因此,本文将卷积神经网络引入到插值滤波器设计中,提出了新的图像超分辨模型,并将其应用到新一代视频编码标准H.266/VVC(Versatile Video Coding)的编码平台VTM7.0中。以下是本文的主要内容:
  (1)受到三极管放大电路中静态工作点概念的启发,本文提出了一种新型自适应激活函数。将原始ReLU函数中的零点作为可学习、可调节的静态工作点,有效的缓解了原始ReLU函数在参数初始化不当或学习率过大的情况下导致的神经元坏死问题,本文将其应用在经典图像超分辨模型VDSR中,取得了明显的增益。
  (2)现有的基于前馈结构的图像超分辨网络采用单一上采样的结构,即只在网络的末尾利用上采样模块对学习到的低分辨率特征进行上采样,并未充分利用高分辨率特征与低分辨率特征之间的依赖关系。本文结合转置卷积和残差网络模块,提出了残差投影模块(Residual Projection Block,RPB),并基于该模块设计了一种新型的图像超分辨模型残差投影网络(Residual Projection Network,RPNet)。实验表明,该模型在图像超分辨任务中常用的测试数据集Set5、Set14和B100上均取得了较好的成绩。
  (3)考虑到视频编码失真,将提出的RPNet重新训练并应用在新一代视频编码标准H.266/VVC的编码平台VTM7.0中,进行二分之一精度的分像素样本插值。实验表明,该模型可以提高分像素运动估计的精度,进而提高编码器的性能。
其他文献
该篇论文对添加剂改善微波陶瓷BaNdTiO的介电性能及其机理进行了研究和探讨,微波陶瓷BaNdTiO系统的介电能包括介电常数εr、品质因数Q温度频率系数τf等,这一系统主要具有优良的介电常数εr(80-90),但频率温度系数τf较高(+85ppm/K),需要另加入添加剂来进行调节,以满足实际应用中的需求.该篇论文主要研究利用添加剂PbO和BiO对频率温度系数进行了调节,不同百分比的PbO和BiO添
学位
该论文采用等离子体增强的化学气相沉积(PECVD)生长技术,原位制备了SiO/nc-Si/SiO的纳米结构.实验中我们首次采用等离子体氧化的方法,获得了作为隧穿氧化层超薄SiO层,并利用layer by layer的方法制备了纳米硅层,然后再用等离子体氧化的方法形成栅氧化层.我们通过对基于硅纳米晶粒的MOS结构的电容电压(C-V)测量,研究了硅纳米晶粒的电荷存储现象.
超宽带(Ultra Wide Band,UWB)通信系统可以利用频带极宽的信道来传输信息,与传统窄带通信系统相比具备更高的传输速率,是未来通信行业研究的热点问题,进行准确的信道估计是保障超宽带通信系统可靠性的关键因素。传统的超宽带信道估计方法,在估计精度、频谱利用率上均有待提升,而压缩感知理论通过利用稀疏信号的特性,能够以较高的估计精度完成超宽带信道估计工作。本文旨在通过对压缩感知理论中重构算法的
空间信号的波达方向(Direction of Arrival,DOA)是指利用传感器阵列接收的信源信息,提取出空域信号的角度参数,从而确定信号发出的位置。经过多年的研究,出现了测向性能较好的超分辨测向算法。论文主要对超分辨测向技术关键问题展开深入研究,包括窄带独立信号DOA估计的优化改进、色噪声背景下相干信号测向实现、宽带混合信号DOA估计。论文首先研究窄带信号、相干信号、宽带信号模型,然后对几个
近年来,语音识别深入应用到各种不同的场景,抗噪能力也成为语音识别系统评价指标之一。语音识别系统主要包括声学模型和语言模型两部分,声学模型主要基于DNN-HMM搭建,提取MFCC特征系数作为声学模型的输入,语言模型则使用LSTM网络进行搭建。本文所搭建的强噪声环境下的语音识别系统中,声学模型基于DRSN-HMM搭建而成,得益于DRSN的独特结构,DRSN-HMM具有良好的去噪性能;语言模型基于LST
学位
在深度学习方法快速发展以及海量视觉数据可利用的背景下,计算机视觉领域近年来发展出多种视觉理解方法,旨在辅助机器理解和分析视频及图像的语义信息。图像翻译作为视觉理解的一种常见方法,其关键在于学习到一个可在图像域之间进行变换的映射关系,利用神经网络学习源域内容,然后将其转换到目标图像域空间。人类生产生活中的很多问题都可以转化为图像翻译的子任务,例如在自动驾驶领域,将车载摄像头拍摄的街景图转换为目标分割
学位
人工智能技术的不断发展为智慧监狱的建设提供了很多帮助,给实时监控要求很高的监狱监管部门提供了许多便利。相比于传统的视频监控推荐方案,基于深度学习的智能推荐技术能够在降低监狱管理人员监控视频观看强度的同时为观看人员提供更加合适的监控视频,从而在一定程度上减轻监狱管理人员的工作负担,提高监狱对服刑人员活动监管的效率。目前推荐系统技术主要应用在电子商务领域,技术方案几乎都是根据用户的身份标识和推荐对象的
学位
由于可见光通信(Visible Light Communication,VLC)技术具有频谱资源充裕、功耗低、安全保密性好等优点,近几年来已逐渐发展成为光无线通信领域科研工作者的研究热点。高速亮灭是发光二极管(Light Emitting Diode,LED)的特性,VLC利用其来传输信息,在短距离无线通信中成为射频通信的有力补充。由于商用LED调制带宽有限,导致速率较低,因而在VLC中广泛采用高
与传统的面部宏表情不同,微表情是无意识的、快速的面部表情,可以在测谎、刑事侦查等应用中提供重要的信息。然而,由于微表情的特殊性,微表情研究存在一些难题。在微表情数据库方面,由于微表情的采集工作较为困难、没有统一的数据库建立标准,因此,用于微表情研究的数据库较少,质量参差不齐。在微表情检测方面,传统的检测技术仅仅基于纹理特征或光流特征,检测的效果并不理想。在微表情识别方面,由于微表情数据库的匮乏,训
学位
随着移动互联网等领域的高速发展以及智能设备的普及,无线通信已成为服务人民生活、推动社会发展的重要支撑产业,无线通信5G基站作为国家“新基建”之一,关系到国计民生的方方面面。构建绿色高效的通信网络是无线通信领域的重要目标和热点研究方向,但通信业务需求的时空分布不均性为上述目标提出了巨大挑战,不能随通信需求变化进行及时调整的通信资源分配将会导致服务质量下降以及能源严重浪费。准确的无线流量预测可以直观反