【摘 要】
:
近年来,高清视频技术为用户带来了更好的视觉体验,但同时也带来了巨大的存储与传输的挑战。因此视频压缩技术已经成为解决大容量视频传输与存储问题的关键。传统的视频压缩技术是基于变换量化操作的有损压缩。因此,在压缩的过程中会出现高频信息,以及细节信息的丢失。这些信息的丢失会导致压缩后的视频质量下降,出现诸如方块效应、振铃效应等失真。传统的视频压缩技术中具有对质量失真进行补偿的技术,被称为环路滤波。但是传统的环路率滤波技术泛化能力低,无法对不同内容的视频均达到良好的补偿效果。基于以上所述的挑战,本文采用深度学习的模
论文部分内容阅读
近年来,高清视频技术为用户带来了更好的视觉体验,但同时也带来了巨大的存储与传输的挑战。因此视频压缩技术已经成为解决大容量视频传输与存储问题的关键。传统的视频压缩技术是基于变换量化操作的有损压缩。因此,在压缩的过程中会出现高频信息,以及细节信息的丢失。这些信息的丢失会导致压缩后的视频质量下降,出现诸如方块效应、振铃效应等失真。传统的视频压缩技术中具有对质量失真进行补偿的技术,被称为环路滤波。但是传统的环路率滤波技术泛化能力低,无法对不同内容的视频均达到良好的补偿效果。基于以上所述的挑战,本文采用深度学习的模型,从大量视频数据中学得失真的模式,使得模型能够适用于更广泛的数据,同时具有更高的压缩效率与更好的滤波效果。
首先,对于任意视频的单帧中出现的质量损失,本文采用深层的神经网络来进行质量恢复。由于近年来提出的残差学习和稠密连接能够极大程度地增大模型的深度,所以我们采用将残差网络和稠密连接级联的方式构建模型。另一方面,对于不同视频具有不同的视觉尺度的情况,我们采用多个尺寸的滤波核来构成基础的卷积层。另外,本文也采用了视觉注意力机制使得网络对不同的视觉区域给与不同的权值以提高模型的性能。
更进一步,视频序列中包含丰富的时域信息。视频中的任一帧和它的参考帧之间都有信息冗余。所以单帧中出现的信息丢失可以通过借助参考帧的信息进行补偿。为了利用参考帧的时域信息以及同一帧中相似块之间的空余信息,我们在前面网络的基础上设计了时域空域信息融合的神经网络。该网络可以通过对参考帧和相似块进行融合来辅助目标帧进行质量补偿,在单帧处理的基础上进一步地进行多帧的信息融合。
其他文献
随着城市交通拥堵问题日益严重,智能交通信号控制技术作为缓解交通拥堵最有潜力的方法之一,受到了国内外广泛的关注。由于交通系统具有复杂性、动态性和非线性的特点,基于对交通系统建模的传统自适应交通信号控制算法,已经不能应对日益多变的交通流。针对这一问题,有学者提出了基于强化学习的交通信号优化控制算法,因为强化学习方法不需外界环境的具体模型,通过不断地与外界进行交互,试错学习,实时调整策略,可以在复杂交通系统中取得很好的控制效果,成为近年来研究的热点。本文基于深度强化学习算法设计了城市智能交通信号优化控制算法,本
一直以来,异常用电行为导致的非技术性损失从经济和安全方面严重影响着电网的正常运转。异常用电检测作为降低非技术性损失危害的核心问题,受到持续关注。随着我国智能电网的全面建成,电网积累了海量的历史电气数据,为基于数据驱动的异常用电检测方法奠定了基础。尽管近年来,大数据分析与机器学习技术得到了长足的发展,然而基于数据驱动的异常用电检测仍然存在以下待解决问题:1)如何降低数据质量不佳的影响;2)如何在检测算法中融入电力知识和理论;3)如何让检测算法能够在数据案例不足的情况下对异常样本精准、有效地召回;4)如何保证
近年来,低成本的多旋翼无人机凭借其机动性强、可扩展性高等优点正迅速走向民用。然而,无人机有限的续航时间和通信距离限制了其服务范围。因此,在实际应用中,通常会利用车辆搭载无人机到达目标区域的附近,然后再出动无人机执行任务。高效的车辆和无人机协同能极大地提高效率、节省成本,因此引起了学术界的广泛关注。然而,现有的相关工作大多侧重于研究车辆-无人机协同进行物流配送的场景,缺乏对无人机巡检场景的关注。除此之外,现有研究大都只考虑车辆与单架无人机协同的模式,而多架无人机并行执行任务能显著地提高效率。
鉴于
近些年来,随着生活水平的提升,人们对体育运动的参与度越来越高。但运动的开展需要专业教练的指导和点评,动作不规范轻则达不到锻炼效果,重则损伤身体机能。动作分析技术的出现,使得人们可以随时随地了解自身动作完成情况,获得专业的点评。传统的动作分析方法主要基于运动捕获设备,存在佩戴不方便、设备高成本、方案不通用等缺点。基于视觉的相关研究很多,但基本都局限在视频动作分析的某一环节,缺少一种从视频数据到人物动作分析结果的端到端解决方案。将现有技术应用到视频动作分析中,还需要解决诸如人物运动模糊、关键点遮挡、相似动作区
随着计算机视觉技术的不断发展,作为核心问题之一的图像语义分割也越来越受到学术界和工业界的关注。图像语义分割旨在将图像中的每一个像素划分到事先定义好的语义类别当中去。通过对该问题的研究,一方面有助于理解人类视觉机制,以辅助探索图像理解和场景感知等更高层次的视觉任务;另一方面也可为自动驾驶和图像搜索等广泛的实际应用场景提供理论与技术支撑。
现有的基于图像级标签标注的图像语义分割算法将缺失的标注信息视为一个整体进行恢复,一般首先生成图像的像素级伪标注数据,然后再使用这些伪标注数据训练算法模型。虽然这些
【摘要】水利水电工程施工质量安全,一直都是人们关注的焦点,同时与国民经济发展、造福人们生活息息相关,随着我国社会发展的脚步越来越快,建设兴修水利水电工程的项目就自始没有停下,水利水电工程是一项利民大业,不仅能够有效消除水灾,还能够充分利用水资源改善能源短缺、水源污染环保等问题。随着我国相关政策的不断落实,对于水利工程质量安全的施工,提出了更多的要求。作为工程建设中必不可少的环节,施工质量安全不仅关
随着3D数据获取的便利,3D数据大量出现,对原始3D数据质量提升的需求也愈发迫切。网格数据作为3D数据的一种主流表达形式,其高质量的恢复显得尤为重要。3D网格数据的处理流程一般包括重建和去噪这两个阶段,即先从2D观测重建出3D网格,再对3D网格进行去噪后处理。本文的3D网格重建和去噪算法旨在研究如何提高这两个阶段所输出3D数据的质量。锐利边缘是保证3D网格数据高质量且细节丰富的关键特征。然而,在以往的3D网格重建或去噪任务中,它没有引起人们足够重视,甚至常被错误地以噪声处理。在3D网格重建任务中,需要解决
近年来,计算机视觉应用领域出现了从2D视觉到3D视觉的转变,3D视觉显著性检测作为这些应用的基础,引起了广泛的研究兴趣。与传统2D显著性模型不同,3D显著性模型挖掘了场景不同模态的线索,包括2D线索、深度线索和运动线索等,有助于提高显著性检测的性能。多模态显著线索之间存在互补和竞争关系,如何有效地融合这些线索仍然是一个挑战。因此,本文基于最常用的3D数据格式之一,即RGB-D视频,重点研究了显著性检测中多模态线索融合的问题。然后,为了进一步提高显著性检测模型的性能,本文选取了近几年兴起的光场数据,它相比于
高效压缩是视频通信的前提,特别是对于面向未来交互式视频应用的多视点视频加深度(Multi-view video plus depth, MVD)数据而言尤为重要。MVD的高效压缩虽然给视频传输、存储带来了可能性,但是在编码过程中所产生的压缩失真具有不可逆性,这给终端用户的图像呈现、人机交互、图像绘制等均带来重大影响。如何能够在没有编码端原始高质量信号的前提下有效提升终端用户的MVD质量,是未来交互式视频在面向实际应用过程中亟待解决的挑战性难题。传统视频编解码器中的环路滤波能够利用图像空域信息进行质量提升,
各种网络应用技术的提升以及实现,使得人们的生活变得丰富多彩。无论是虚拟现实,还是交互式游戏等强大的应用,归根结底都需要网络技术的支持。为了保证用户的服务质量,这些应用往往需要网络能提供高带宽,低延迟,以及带宽的公平分配。网络拥塞控制算法BBR(Bottleneck Bandwidth and Round-trip propagation time),是由谷歌新提出的具有良好性能的拥塞控制算法,其在带宽利用以及延时方面,相较于当前常用的Cubic算法均有明显提升,更能适应当前应用场景的需求。然而,随着对BB