基于深度学习的视频超分辨率恢复

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaoyueban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超分辨率恢复是计算机视觉和图像处理中一个重要的研究问题。超分辨率恢复是一种基于软件算法的技术,具体是指通过对数字图像信号的分析,将一帧或多帧低分辨率图像进行恢复重建,将其转化成更高分辨率图像或视频的技术。在实际中,超分辨率恢复有着广泛应用,如医疗图像分析、视频监控、生物特征识别和安全性等领域。除了提升图像质量外,它还有助于提升其他计算机视觉任务的效果。因此,对提升超分辨率恢复技术的研究具有非常重要的实际意义和应用价值。
  随着深度学习技术的不断进步,计算机视觉领域的许多问题得到了更优解决,基于深度学习的超分辨率恢复技术也得以充分发展,取得了极大提升。基于卷积神经网络的超分辨率恢复方法在捕捉丰富图像特征的基础上对图片进行重建;基于生成对抗网络的超分辨率恢复方法使生成的图像在逼真程度上有了很大提升。本文所做工作为将视频进行超分辨率恢复重建;采用方式为结合视频相邻帧信息,将卷积神经网络和生成对抗网络两种方法结合,在改进后应用于视频超分辨率恢复任务上,使生成的图像既保留了原有的特征信息,又比普通卷积网络生成的图像具有更逼真的纹理和更清晰的细节。基于深度学习的方法,本文主要工作与改进如下:
  (1)在视频超分辨率恢复时,结合了相邻帧信息,而非单独对单帧图像进行超分辨率恢复重建。本文在网络中加入帧对齐和帧融合模块,帧对齐模块采用了空间金字塔结构,将中心帧和它的相邻帧进行对齐;帧融合模块采用双向卷积LSTM结构,将中心帧和它的相邻帧进行对齐。由于相邻几帧图像包含的信息大致相同,所以通过这样的方式,网络可以充分利用中心帧与相邻帧之间的相似信息,对中心帧进行更好的超分辨率恢复。且为了计算简单和充分保留所有输入图像的特征,所有结构都去掉了批量归一化(Batch Normalization)层。
  (2)在上采样重建阶段采用了生成对抗网络结构。这使上采样时生成的单帧图像不会过于平滑,解决了网络输出的图片由于单一损失函数而造成的图像不逼真、边界不清晰的问题。生成对抗网络结构中,采用了相对平均判别器,而非基础的普通判别器。在实验中证明,这使上采样重建得到的图片更加逼真,具有更真实的纹理信息和更接近真实的亮度。
其他文献
近年来,深度学习在计算机视觉领域取得了前所未有的成功。目前绝大多数的应用都深度依赖于大量的标签数据,这极大限制了深度神经网络的适用性。与主流的神经网络训练方法不同,一个普遍的共识是人脑的学习主要以无监督的方式进行,而监督信息则通过反馈的方式强化神经学习。尽管我们并不完全理解人脑的工作机制,但我们的目的是探索像人脑一样无监督学习的方式,它可以从大量无标签视觉内容中自动提取丰富的抽象特征,提升智能视觉
学位
近二十年来,无线通信技术有了质的飞跃,2G、3G等蜂窝移动通信网络技术已经慢慢淡出人们的视野,4G网络普及的同时,2019年第一个5G商用网络成功部署,随后5G网络也如雨后春笋般破土而出。国际电联组织的5G商用频谱范围可划分为Sub6GHz和毫米波频段。目前国内5G网络所采用的频段仍然是Sub6GHz频段,而毫米波段的研发、测试和应用也在稳步开展。5G网络主要部署场景包括室内热点、市区宏蜂窝、市区
当今社会人们的工作压力大,再加上饮食不规律、缺乏运动等不良生活方式,使得心血管疾病频发。心脏超声作为医生诊断心脏疾病的重要手段,能够直观的显示病人的心脏解剖结构和症状。基于此研究背景,如何利用计算机快速准确的处理心脏超声成为一大研究热点。近年来,深度学习算法的突破与发展极大的推动了各研究领域的变革,如汽车无人驾驶、情感识别和人脸识别等。将深度学习算法应用到心脏超声影像中能够辅助医生进行诊断、给出治
学位
目前,中国0~14岁儿童的数量约为2.2亿,其中弱视的发病率约为2%-3%。弱视严重影响儿童的日常生活,阻碍儿童身心健康发展,给儿童及其家庭造成无尽的困扰和伤害。现代医学研究表明,弱视患者接受治疗的时间越早视力恢复效果越好,12岁以下的弱视儿童经过及时治疗完全可以恢复正常。因此,实现弱视儿童早期鉴别具有非常重要的意义。作为新兴的脑功能成像技术,功能近红外光谱成像技术(Functional Near
学位
随着新一代创新技术的快速发展与广泛应用,现有的信息安全模式和理念正在面临极大的挑战,日趋复杂严峻的安全形势严重制约了我国社会信息化、数字化、网络化的进一步发展。“十四五”时期主要目标任务中强调要坚持总体国家安全观,加强国家安全体系和能力建设。作为网络空间安全和攻防对抗中至关重要的一环,异常网络流量检测系统能够实时侦测、监控、追踪和过滤可疑流量与连接,及时有效地发现、识别和防御强对抗环境下的潜在威胁
学位
多输入多输出技术(Multiple-input Multiple-output,MIMO)技术通过在发射端和接收端配备多根天线来获取空间分集增益,在不增加带宽和发送功率的情况下,提升系统传输速率和频谱效率。但是MIMO技术在带来性能增益的同时,还存在着许多问题。首先,MIMO系统发送信号时会使信号受到信道间干扰(Inter-channel Interference,ICI),其次系统在工作时需要进
计算机断层成像技术(ComputedTomography.简记作CT)是种获得物体断面的成像技术。由于人体基本组织或物体内部结构对X射线的吸收率和透射率的不同,首先使用高灵敏度的检测器对待重建物体进行扫描获得投影数据,然后将投影数据传输到计算机,最后使用计算机对投影数据进行处理,处理后即可获得待检测物体断面图像。CT成像技术在工业和医学方面发挥了关键作用,但其在实际应用中也存在一些问题:工业上,由
癫痫(Epilepsy),俗称“羊癫风”,是一种由多种病因引起的慢性脑功能障碍综合症,是继脑血管疾病之后的第二大脑部疾病。脑部神经元突发性地、反复性的异常放电会造成中枢神经系统功能的间歇性障碍,这是导致癫痫发病的根本原因。癫痫疾病的临床表现包括突然失去意识、全身抽搐和精神障碍等。对于儿童病患会在身体发育和智力发育方面受到巨大影响,更多癫痫患者是饱受生理和心理上的煎熬。  脑电图(EEG)是研究癫痫
学位
普适计算以用户为中心,追求透明地提供智能服务,其重要产物—一情景感知系统已广泛应用于智能家居、智慧医疗和智慧旅游等领域。目前,面向不同场景实现不同功能的情景感知系统层出不穷,但缺少统一的系统整体评估标准以及具体且有效的系统自适应优化方法。另一方面,在高动态智能环境下,异构采集设备的错误、网络延迟等原因导致情景信息无可避免地存在不一致性,使情景信息质量较低并影响系统做出正确的推理及决策,极大降低了用
基于图像的文字检测与识别技术是计算机视觉领域的重要任务之一,光学字符和自然场景文字是两类重要的辨识目标。光学字符识别是指,从扫描文档图像中,提取其中的文字信息,目前扫描文档文字识别技术已相对成熟。另一类是自然场景文字识别,提取自然场景图像中的文字,由于自然场景下背景复杂,成像质量不佳,文字样式多样,识别自然场景中的文字的难度远高于前者,目前主流的文字检测与识别方法还不足以满足实际工业应用的需求。本
学位