基于深度学习的3D全景视频系统图像修复关键技术研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:qcxmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于沉浸式3D全景视频的虚拟现实应用可以给用户带来沉浸式、深度感和交互式等身临其境的体验,具有广泛的市场需求和应用价值。然而,由于现有采集技术的局限和计算资源的约束,3D全景视频系统中的各环节均会引入不同类型和不同程度的失真。因此,3D全景视频系统中存在大量的图像失真问题,亟需研究高效的修复算法,以提升整体系统性能。本论文基于深度学习技术,围绕3D全景视频系统中的深度图像修复和360度全景图像修复两个关键技术问题,展开了深入地探讨和研究。本文提出的模型方案可有效地提高3D全景视频系统性能。具体来说,本文主要完成了以下四个工作:(1)针对深度图像压缩失真修复,为了消除深度图像压缩产生的伪影和块效应,本文提出了一个基于彩色图像引导的深度图像修复模型(DIG-Net)。该模型从深度图像对应的彩色图像中提取纹理、边缘等结构信息,辅助深度图像的压缩失真修复。同时,模型引入相应的边缘损失项用于保护深度图像的边缘等结构信息。实验结果表明所提出的模型可以有效地修复深度图像中的压缩失真。(2)针对深度图像获取阶段中存在的信息缺失问题,本文提出了一个渐进式深度图像补全模型。针对不同类型和不同程度的信息缺失,所提出的模型先对深度图像进行粗粒度重建,再利用彩色图像的结构信息辅助深度图像的边缘重建。模型训练阶段同时对内容重建模块和边缘重构模块的输出深度图像的保真度进行评估,以保证两个阶段输出的深度图像的质量。实验结果表明,所提出的模型可以有效的完成深度图修复任务。(3)针对彩色图像去除噪声和去除方块效应的问题,本文提出了一个轻量级参数共享的修复模型。模型通过网格的路径选择算法,实现有效地共享参数,以减少网络的规模和修复时间。针对不同压缩质量和噪声等级,用户通过设定不同子网络实现“一对一”训练。实验结果表明,此模型的性能优于相似结构的模型。(4)针对360度全景视频环路滤波,本文提出了基于内容感知的全景图像压缩失真修复模型。该模型针对全景图像和HEVC压缩的特点,分别引入了内容感知模块和质量感知模块。其中,内容感知模块从码流提取分块信息作为先验知识,实现分区域修复。针对不同压缩等级的特征图像,质量感知模块通过特征图权重校,实现了自适应修复不同质量图像的目的。此外,模型作为环路滤波器,嵌入在HEVC编/解码器的DF和SAO模块之间。实验结果表明,文中提出的模型可以有效地提升视频质量,同时降低码率。
其他文献
现如今随着科技的不断发展,在社会的发展历程中,数据扮演越来越重要的角色。海量数据的利用对于生活或者商业中构建合适的模型来预测特定的任务有很大的优势。所以,在社会实践应用中大数据无处不在,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据的使用等。为了能够更好的挖掘数据潜在的价值,挖掘数据的技术成为了近段时间来的研究热点,如:聚类和推荐算法等。在机器学习和数据挖掘中,聚类是很
在低光照环境下,由于普通消费者拍摄的照片通常会受到相机抖动、传感器噪声等因素的影响,从而导致所获取到的照片质量不佳。经过图像增强处理后,能够使获取到的图片质量得到一定的改善,以达到与人们主观审美感受相一致的结果。虽然目前有一些图像质量评估指标,能够对经过图像增强处理后的照片进行质量评价,但是,这些评价指标没有经过人们的主观验证,不能仅凭此判定经过图像增强处理后的照片就一定符合人们的主观审美。针对该
近年来,物联网(Internet of Things,IoT)已经成为一个重要的研究领域。其中,智能空间结合了环境感知和机器学习,以智能方式向用户提供智能和定制服务。随着传感和通信技术的进步,物联网使得用户可以随时随地与任何事物进行连接,也由此产生了更多的用户服务。因此,实现准确、非侵入式和安全的智能交互成为了研究热点。如今,居住在智慧城市的人们的方方面面都与物联网息息相关,正因为如此,身份识别服
随着工业的快速发展,人们对产品的质量要求也越来越关注。产品表面缺陷检测作为生产过程中最重要的工序之一,它直接影响到产品质量以及用户体验。产品在生产过程中往往会出现一些缺陷,这些缺陷具有一定的随机性,缺陷类型、形状大小各异。传统的人工检测虽然方法简单,有些缺陷的特征不够明显,利用人眼难以识别,检测误差较大,并且效率低下;现有的机器视觉方法能够实现自动检测,但其核心算法需要人工提取特征,存在选取特征不
图像检索是指将待查询图像与候选图像进行相似度比较,找出与查询图像相似或相关的图像。随着图像数据的海量增长和深度学习的快速发展,基于内容的图像检索吸引了越来越多的研究者。一方面,该课题对计算机视觉领域的其他任务(如行人重识别、图像分类等)有积极的促进作用,另一方面,该课题在实际应用中(如电商平台通过图像查询商品,安防等)也发挥了重要的作用。近年来,基于深度学习的图像检索方法取得了良好的效果。然而,图
当前网络信息地爆炸式增长,加大了人们在获取信息中消耗的时间及精力。自动摘要技术能够有效地提高人们面对巨大文本信息冗余时获取信息的效率。自动摘要技术按原理分为抽取式与生成式:抽取式自动摘要技术是对文本中的所有句子进行重要性评估,然后按照重要性选取句子组成摘要;而生成式自动摘要技术是基于内容,由算法生成摘要。但目前效果较好的生成式自动摘要方法,对输入文本长度的处理能力也仅限于短文本,而中文摘要任务则更
当今时代处于一个信息爆炸时代,随着数据量迅速增长和信息高度密集,云计算和大数据等技术的蓬勃发展,成为了当今社会不可或缺的重要技术。而存储是大数据的重要基石,也是云计算的重要基石。当前的云计算和大数据应用严重依赖于异构存储平台,云计算的多租户环境以及数据多样性都使得应用负载的特性差异巨大,必须设法有效地综合利用这些异构存储系统来满足差异性的需求。此外,在云计算和大数据环境下,能耗在数据存储中心的成本
如今,由于序列到序列模型在自然语言领域的重大突破,大多数基于对话生成任务的研究目标都集中于如何让机器产生更高质量的回复。然而,这类研究只能让聊天机器人被动地对内容进行回复,随着对话的展开,人们继续交流的意愿也会逐渐下降。因此,本文研究的方向将从如何让聊天机器人产生高质量的回复转变成如何使其主动有效地进行提问。结合问句的特点,本文提出了三种基于语法结构的问句转换方法和一种基于问句筛选的波束搜索机制。
图像去噪是一个基础性的科研任务,其旨在对获取到的噪声图像通过某种去噪算法的处理后能够获得对应的纯净图像。当前的很多去噪方法是使用大量的成对图像(噪声图像和纯净图像)去训练一个卷积神经网络使之学习到从噪声图像到去噪图像的映射关系。相比于传统的基于图像先验知识的方法,这类方法能够自动地挖掘和利用更多的图像统计信息,从而获得更好的去噪效果。但是,这类方法目前依然还存在着一些问题,如有去噪图像过模糊、单个
自然场景中的文本包含丰富而准确的语义信息,是分析和理解特定场景内容的关键要素。近年来,自然场景文本检测技术在自动驾驶、场景分析、盲人导航等领域得到了广泛应用,成为当前计算机视觉领域的研究热点,受到了工业界和学术界的共同关注。然而,由于自然场景中的文本往往形状大小多变、排列方向不一、环境背景复杂等原因,自然场景文本检测算法的研究仍然面临巨大的挑战。本文结合目标检测、图像分割和深度学习的最新研究成果,