基于三维语义生成对抗网络的场景补全方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:asd710601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景的三维重建技术是计算机视觉和定位导航的重要研究课题,使用该技术可以获得物体的3D轮廓,也能获取轮廓上任意点的坐标。随着视觉导航技术的不断发展,人们对使用计算机模拟现实世界的三维场景越来越感兴趣,对三维重建技术的要求越来越高。基于单幅图像的三维重建是三维重建中一个重要的研究方向,重建过程中的主要困难是信息的不充分性,但由于其重建效率高、成本低廉,在虚拟现实、大型场景重建、城市数字化和文物恢复等领域得到了广泛应用。而语义分割的目的是将对象按照区域进行划分,为每个区域的对象进行语义标注;三维重建的目的则是根据二维图像恢复出对象或场景的三维空间信息。虽然语义分割和三维重建是两个不同的研究领域,但这两者之间其实是存在许多关联的。本文考虑将这两个问题转化为同一个任务,通过设计的生成对抗网络,完成由RGB-D图像到带语义信息的三维场景补全工作。本文的主要贡献如下:1.提出了基于生成对抗网络的三维语义场景重建方法。针对现有卷积神经网络方法面对复杂场景重建精度较差的问题,我们提出了一种从单一深度图完成语义场景重建的新颖方法,该方法利用生成对抗训练的能力来实现精细化的场景重构,而无需其他假设或相机姿态信息;2.针对不同数据集下三维语义场景重建效果差异较大的问题,通过对比三种不同的的深度学习框架,包括用于深度补全和深度恢复的方法,验证不同方法生成的信息完好的深度图,对三维语义场景预测准确率的提升效果;3.针对现有的SSC网络依赖于深度图而未考虑结合信息更充分的RGB图像的问题,提出了基于RGB-D双流的三维语义场景重建方法。该方法通过设计一种轻量级的维度分解残差模块DDR,用于提取RGB图像特征,可有效的减少网络中的参数,节省运行时间。同时,在现有的RGB-D双流网络的基础上提出了网络结构优化方法。通过引入体素数据的编码器、重建结果的鉴别器、潜在特征的鉴别器,将深度和彩色图像特征无缝融合,使得网络可以从RGB图像推断出更为精细的语义信息。本文使用SUNCG和NYU两个公开数据集作为训练RGBDSSCGAN网络的训练与测试样本。在场景重建任务(SC)和三维语义场景重建任务(SSC)上,本文提出的方法相较于基准方法,准确率分别提升了4.4%和3.2%。综上,本文提出的方法针对不同的输入源实现的SC和SSC目标均具有较好的准确率,证明本文所述方法的有效性和良好的鲁棒性。
其他文献
大数据时代为诸多行业的变革提供了巨大推动力。为获取和处理更多数据,越来越多的技术被发明和应用,“万物互联”已成趋势。大多物联网数据同时具有时间和地点标签。近年来,大规模时空序列层出不穷。基于大数据对时空序列相关性和因果性进行挖掘,并据此进行推断和预测成为了大数据的重要应用之一。本文的研究内容为大规模低频时空序列的预测和大规模高频时空序列的模式识别,主要在大规模时空序列的模型上进行一些改进与尝试以便
由于疾病、创伤和老年化等原因造成的大范围骨缺损的修复与替代问题,是人类几个世纪以来不断深入研究的重要课题。然而迄今为止,临床上对大范围骨缺损的治疗仍是世界难题。利用骨科植入物来重建缺损部位骨组织的结构和功能是现代骨科学的主要治疗手段。近年来,3D打印技术的发展为骨科植入物的设计和制造带来了革命性变化。孔隙结构由于其可控的力学性能和优异的生物学特性,越来越多的应用于骨科植入物的设计中。三周期极小曲面
图像配准是一个寻找两幅或多幅图像的空间对应关系的过程,是一种应用广泛的核心图像处理技术。随着科学技术的快速发展与人民生活水平的提高,在医学图像配准领域,一方面,临床成像技术得到了发展,医学成像设备得到了推广与普及,涌现出了大量的含有丰富的结构或功能信息的图像数据,这给图像配准技术带来了极大的挑战。另一方面,图像配准技术也被应用到各种极具挑战的临床应用场景中,研究者们针对其应用场景提出了大量适用性的
近些年来,许多科研人员致力于电子设备创新交互方式的研究,并据此开发了众多人机交互应用。手势分类技术,作为人机交互方式中的重要一环,也逐渐成为了许多现实应用(如手势识别及可穿戴设备的视觉交互)的迫切需求,且应能适用于不同光照、背景等诸多环境。目前,许多现有的方法都能精确地识别手势,但是,在实际应用中依然存在着诸多的挑战,包括:环境的复杂性、不变量的不同性,例如处理时间、执行框架,以及系统的安全性、准
成像设备的抖动,元器件的噪声和图像编解码等都会导致图像退化。图像复原则是处理退化的图像,使其与原始图像更加接近。传统的图像复原方案有很多缺点,如计算时间过长,鲁棒性较差等等。近几年,基于神经网络的复原方法逐渐被提出,这种算法可以充分获取图像的先验知识,有效地提高图像处理速度,因此受到学者的广泛关注。然而现有的算法大多解决的是比较单一的图像降质问题。如在图像去模糊方面,仅解决人为制造的模糊核,而这类
心血管疾病日益成为世界首位死亡原因,治疗心血管疾病的投入很高。在防控心血管疾病上,平时的健康管理是必要的手段。由于防治指南无丰富、可操性的管控知识,但是健康网站上未经处理的管理知识也无法提供最有效的信息、可行性。不同来源的健康知识是否可靠,知识是否有理论依据,如何挖掘出更多的信息和科研方向均需要研究。因此如何将健康知识抽取关键信息、有效分类、挖掘并应用到实际中,是提高知识使用效率、指引科研方向等实
随着深度学习及与其相关的动作识别技术的兴起,电子设备在此过程中逐渐展现出其独特的功能性。目前,这已成为计算机视觉的主流研究方向之一,并且在人机交互领域彰显出巨大的潜力。然而,在实现过程中,可能会遇到与诸如计算代价和效率等相关的各项挑战。同时,人体动作识别又是一个极为复杂的领域,因为图像序列可能会包含一系列不属于特定动作的多样化特征。为了解决上述问题,本研究提出了一种基于DTA技术(Detect、T
飞行员在环数值仿真系统是验证民机功能设计、研究航空人为因素的重要工具。随着民机自动化水平的提高,飞行员与飞机自动化系统之间功能分配设计的合理性是保障飞行安全的重要前提。为保证从仿真模型开发到飞机系统设计的无缝衔接,需围绕飞行员在环仿真系统建立合理的设计流程,并对民机系统设计中的人机功能分配问题建立有效的评价机制。本文的研究内容主要包括:引入基于模型的系统工程方法从而建立飞行员在环数值仿真系统从飞机
随着市场竞争的不断加剧,企业必须根据外部市场的变化,通过提高内部管理水平,加强管理管控,以提升自身的市场竞争力,保证战略目标及经营目标的实现。全面预算管理是实现企业经营目标的重要管控手段和保障之一。作为企业战略规划及经营计划的量化工具,全面预算管理在企业管理中得到广泛应用。但如何有效进行全面预算管理,则是所有企业均需面对的问题。本文将根据全面预算管理在企业经营目标实现中的作用以及大多数企业目前运用
随着技术的发展进步,显示设备的性能逐步提高,除了分辨率和色彩丰富度的提高,也表现在刷新率的显著提高。而电子显示屏显示动态影像的原理与人眼的视觉融合及视觉暂留效应是紧密联系的,当快速变化的静态图像达到一定的变化频率,人眼看到的画面就会产生动态感,这个频率在通常情况下是60Hz左右。目前的高端商业显示器的刷新率已经可以达到144Hz甚至更高,而更高的刷新率除了可以给观看者带来比以往更流畅的观看体验之外