基于先验知识的视频补全和伪装物体检测

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lovelywd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来深度学习技术在计算机视觉领域的成就令人瞩目,这和大规模标注数据集的面世密不可分。然而模型的性能对标注数据的规模、标注质量等非常敏感。从任务本身或者有限数据挖掘可用的先验知识并有效的融入网络结构设计、训练过程中,是缓解模型训练依赖数据的有效途径之一。本文就视频补全和伪装物体检测这两个计算机视觉任务,利用任务或数据的先验知识引导网络的设计和训练。视频补全利用视频中的可见部分,补全缺失的内容,使得补全后的视频看上去和谐、自然,广泛应用于视频修复、物体去除等任务中,但是视频补全方法难以在高频区域生成自然、清晰的纹理,而且训练耗时。伪装物体是指自身和环境纹理特别相似的物体,伪装物体检测旨在找到图像中的伪装物体,并提供像素级别的分割结果,有利于新物种寻找、医学图像中病灶分割等应用,然而目前的伪装物体的检测方法并没有显示利用纹理信息。为了提高伪装物体检测的准确度和视频补全的质量,本文探究任务先验在伪装物体检测中的作用以及如何从单个视频中学习补全缺失区域:1.伪装物体是指自身纹理和背景特别相似的物体。伪装物体检测最大的难点就是如何去辨别高度相似的纹理,进而提取感知纹理细微差异的特征。在伪装物体检测中,如果能够放大伪装物体和背景的纹理差异,任务难度将被大大降低。基于这一重要先验知识,本文对它进行建模并融入网络中。因为纹理本质上是基础视觉特征元素的共现情况表达,所以本文提取基础特征的格莱姆矩阵作为纹理特征,并分别对纹理特征和分割真值计算亲和矩阵,在提取的纹理特征上施加这两个亲和矩阵的距离损失,从而达到放大伪装物体和背景的纹理差异的目的。把这个纹理感知优化模块融入到检测网络中,使网络具备感知纹理细微差异的能力,从而引导网络准确检测到伪装物体的区域。为了保持结果边缘的一致性,本文进一步提出边缘一致性损失,强调伪装物体分割边缘的一致性。2.视频补全的目标是的在视频的缺失区域填补内容,使得填补后的视频具有时空一致性和理想的视觉效果。目前基于Transformer的方法在视频补全任务上取得了不错的效果,但是这类方法依赖于连续空间内的自注意机制,在高频区域容易输出过于模糊的纹理和时空不一致的结果。于是本文创新地提出了在离散隐空间中的Transformer,将补全问题转化为离散空间中的码字预测问题。首先我们先对每个视频学习编码器、解码器和码本,将视频表示为码本中码字构成的离散特征。然后基于前面学习到的离散表示,随机遮挡视频内容来训练Transformer预测遮挡区域的码字。Transformer学习已知区域的码字分布后,能够预测缺失区域的码字,接着补全后的离散特征经过解码器后生成时空一致的补全结果。本文在标准数据集Youtube-VOS和DAVIS进行了视频修复和目标移除的实验,定量指标都优于现有方法,而且在高频区域生成的纹理更加自然真实。
其他文献
半导体光催化技术可直接将光能转化为化学能及电能,是解决未来能源与环境危机的重要手段之一。在多种半导体材料中,石墨相氮化碳(g-C3N4)因价格低廉易得、极高的热稳定性和化学稳定性、合适的带隙等优点而备受瞩目。然而,合成方法及途径强烈影响材料的物理、化学性质。传统热聚合方法合成的g-C3N4具有比表面积小、光生载流子复合速率较快及可见光吸收少等缺点,极大地限制了其在光催化领域中的广泛应用。针对上述问
学位
随着信息飞速增长时代的到来,人们对于信息检索的需求也在不断增加。其中,作为机器学习方法的重要领域之一,哈希学习成为了用于信息检索的典型方法。如今网络上存储的数据存在多样性,传统的哈希方法研究范围局限于同种数据之间的检索,因此跨模态数据之间的检索逐渐受到关注。跨模态数据检索,因不同模态数据的数据分布不同,所以直接对数据训练哈希函数,会使得生成哈希编码无法充分保留有代表性的原始语义信息。而且,跨模态检
学位
目前,聊天机器人是智能机器人和人工智能领域中的研究热点,它的主要目的和功能是实现智能化的人机交互。考虑到一个完整的对话会涉及到上下文,因此如何提高聊天机器人对上下文的理解成为了需要解决的主要问题。现在最新的研究方法是采用注意力机制将语句解析成更深层次的粒度表示,以此获得更多上下文间的相关信息,以提高模型的准确性。虽然基于注意力机制能以更低的计算量得到更好的准确率,但在挖掘不同层次粒度的信息方面仍然
学位
锂-氧气电池由于较高的理论能量密度(3860 mAh g-1),因而具有较大的应用前景,非常有望成为下一代新型储能电池。在锂-氧气电池中,过氧化锂(Li2O2)的难溶解性及难导电性导致电池充电电压过高(>4.0 V)和电池严重极化,进而导致电池的性能以及能量转换效率低下,情况严重时会导致电池过早衰竭。当前,Li2O2的分解问题一直无法得到有效解决。本论文针对上述问题,利用Au/Sn O2介孔纳米管
学位
二氧化碳(CO2)是大气中主要的温室气体。其在大气中含量的持续增加造成了严重的气候问题,未来将严重影响人类社会的可持续发展。因此发展CO2捕获和转化技术对碳减排并最终实现碳中和具有重大意义。其中,利用CO2和环氧化物通过环加成反应生成环状碳酸酯是最有前景的CO2捕获和转化技术之一。此方法不仅可以捕获CO2,其反应产物也可作为前驱物用于高附加值药物和聚碳酸酯的合成。由于CO2分子比较稳定,选择高效稳
学位
医学图像广泛应用于各类医疗诊断任务中。然而,在医学图像成像过程中,容易遭受环境干扰等因素的影响,出现获取的医学图像质量不佳或者感兴趣区域细节丢失等情况,给诊断带来障碍。传统的对比度增强方法可以有效提升图像质量,但是大部分方法在增强后会造成图像细节信息有不同程度的损失。对于医学图像而言,细节信息可能是诊断和治疗的关键。另外,现有的对比度增强算法大部分基于图像全局进行增强,但是在使用医学图像的时候更多
学位
多酸基配合物(Polyoxometaltes-based compounds)是无机化学领域的一个重要的研究方向。将多酸作为建筑模块,与金属阳离子和有机配体通过配位作用相互连接,形成结构多样、尺寸各异的一维链状、二维网状和三维化合物。金属-氧簇合物的合成方法多种多样,比如水热法、常温法等。另外,合成过程中的p H、反应温度和时间,以及原料的选择和配比都对化合物的合成有着重要的影响。由于多酸化合物的
学位
能源对于所有生物的重要性不言而喻。目前,为满足能源需求,化石燃料等资源的过度使用导致环境受到了严重的破坏。而CO2是化石燃料燃烧产生的温室气体之一,也是造成全球变暖的根本原因。为此,人们已经采取了许多措施来减少环境中的CO2含量,如碳捕获与储存、工程碳矿化和热化学还原等。但这些方法仍然存在一些缺点:成本昂贵、对电压和温度要求较高、不可持续等。因此,我们亟需一种替代的可持续的解决方案,同时实现环境中
学位
人脸图像超分辨率重建的目的是将一张或者多张低分辨率人脸图像恢复为高分辨人脸图像,它具有重大的应用价值。但是,如何在较大的超分因子下获得良好的人脸超分辨率重建效果,目前仍然是需要进一步探究的问题。因此,本文提出了一个基于人脸结构信息的重建网络和一个基于生成对抗网络的重建网络,以进行8倍超分因子的人脸图像重建。借助人脸的先验信息来引导网络的超分辨率过程,能够有效地增强人脸图像的重建效果。因此,本文提出
学位
目前,图像超分辨率研究通常可以分为两种,分别是单图像超分辨(Single Image Super-resolution,SISR)和参考图像引导超分辨率(Reference Image Guided Super-resolution,Ref SR)。其中,SISR仅接受单张低分辨率(Low-resolution,LR)图像作为输入,其重建的图像往往会产生模糊或者伪影现象,主要原因是因为原始的高分辨
学位