基于帧间相似性的光场图像压缩与对象分割算法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xxyy001a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光场图像是能够对三维场景进行表达的一种新型数据结构。一张光场图像理论上完整地记录了空间内所有光线在所有空间和角度位置下的情况,可以用于三维重建、深度估计、重聚焦等等方面。现实中已经有大量的游戏、穿戴设备等应用了光场技术,能够提供更加自然的三维仿真体验。光场图像可以由普通相机通过扫描式或阵列式结构拍摄,再或者由专门的光场相机进行拍摄。光场相机使用内置的微透镜阵列对同一场景进行多空间位置,多角度方向的拍摄,其中包含了同一场景的四维信息。与普通图像相比,其具有超大的数据量、超高的空间冗余量。光场图像在存储、可视化等等方面还有大量需要被完成的基础工作。当前主流的光场图像处理过程都需要先将其解码为伪序列。解码后的图像阵列是相邻帧具有微小变化的二维序列,按照不同的扫描方式可以将其一维化转换为伪序列。伪序列的表示使得光场的空间角度结构得到了更加清晰的展现。与一般图像集相比,这样的伪序列在帧与帧之间仅具有微小的空间角度参数变化。本文将利用这样的特性,针对光场图像压缩算法和对象分割算法两方面的具体实现来进行讨论,对帧间相似性提出相应的更为恰当的度量,以提高算法的性能。针对伪序列的压缩算法,我们使用基于视频压缩的框架,通过调整伪序列的编码顺序、QP分配和参考帧选取等重要的编码参数得到优化的编码结构。我们参考了二维层次编码的工作,其将一维层次编码的思想应用于二维情况,确定了帧的编码顺序。我们还参考了利用帧的空间位置对帧进行层次划分的工作,确定QP的分配。同时,我们使用了基于SIFT算子的算法代替基于空间位置的算法来计算帧间相似度,根据帧间相似度的度量自适应地进行参考帧的选取。我们在和参考工作同样的数据集上做了测试。针对伪序列的分割算法,我们考虑到伪序列的帧按扫描顺序连续形变,我们将其扩大到更一般的视频分割问题上。考虑到帧间只存在微小的局部变化,我们提出了时间不变性特征的假设,以度量帧间语义的相似性。我们参考了 U-Net和孪生网络的结构,利用下采样和最大池化的性质自然地处理局部形变,同时提取对应的时间不变性特征,并设计了相应的网络结构。我们对时间不变性特征的模型做出了分析,得到了相应的损失函数。在帧间对象存在全局位移的情况下,我们的假设不再适用。为了解决全局位移的问题,我们设计了两种附加的结构。其中,基于LSTM的结构允许时间不变性特征在时间上有微小的变化,而基于强化学习的结构先单独对整体位移做出校正,再使用我们提出的原始网络进行训练。随后我们在DAVIS-2016数据集上做了相应的测试。
其他文献
由于儿童的大脑发育不完全,麻醉药物引起的神经振荡变化与成人不同,所以面向成人的麻醉深度算法与监测仪器无法应用于儿童的全麻手术监测。对不同年龄患者在全麻手术中的脑电
蓄电池在工业运输、5G通信、电动汽车等领域应用广泛,但随着行业技术的突破性进展,各领域对其提出了更加多样化的要求。电池荷电状态(state of charge,SOC)是电池使用状态的
随着语音信号处理技术的日益完善,藏语语音识别、合成技术取得了长足地进步,这对藏语使用者来说受益匪浅。近年来,随着藏区经济不断发展和地区间的文化交流不断深入,藏族人对
三元硫属化合物半导体材料由于其具有高效、可调的电与热输运性质、高元素丰度和低毒性等优点,在基础研究和实际应用领域扮演着非常重要的角色。寻找一种操作简单、高效率的
进入21世纪,逐渐枯竭的陆地资源难以满足世界经济的发展需求,丰富的海洋资源受到了各国的重视。水下通信是实现海洋资源开发的先决条件。然而在水下通信环境中,陆地通信中常
为深入研究围棋运动的技战术运用、影响围棋对局胜负的主要因素以及围棋运动员技战术水平方面有待提升等相关内容,本文以柯洁在2018年中国围棋甲级联赛中的技战术特点为研究
人体中的微血管通常指的是小动脉与小静脉连接处的毛细血管,其中常说的微循环指的是人体微血管中的血液流动,主要功能是完成人体各个器官与组织所需的物质交换。微循环可以反
数据备份系统是互联网服务的基本组成单元之一,是提供高可用服务的重要保障。随着服务规模的不断扩大,为了能够快速响应不同地区用户的请求,许多互联网服务提供商将数据副本
人民有信仰,国家有力量,民族有希望。崇高的信仰是一个人、一个民族、一个国家不断发展的精神动力,中国特色社会主义新局面的成功开创,正是源自我们对马克思主义的坚定信仰。
国网内的电力设备众多,而且设备类型各异。如果人采用人工管理的方式,将无法有效的对众多电力设备缺陷进行维护和管理,不仅影响电力设备缺陷管理效率,同时还可能会因为工作失