基于深度学习的RGBD图像显著性检测方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:chica2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机等设备的普及,各种数字图片更加频繁地出现在人们的日常生活当中。如何让计算机通过图像来认识世界是许多学者一直研究的任务,其中一个重要子任务是图像显著性检测。图像显著性检测是许多图像处理任务的重要步骤之一,目前已经提出很多图像显著性检测方法。RGBD图像相较于彩色图像拥有额外的深度图,具有更全面的3D空间结构信息。本文致力于研究基于深度学习的RGBD图像显著性检测方法,包括基于边缘感知和跨模态特征采样的RGBD图像显著性检测方法和基于分类弱监督的RGBD图像显著性检测方法。主要研究内容如下:第一,现有的RGBD图像显著性检测方法未能充分利用彩色图像和深度图像的跨模态信息,且现有方法对显著物体边缘的分割粗糙。为解决上述两个问题,本文提出基于边缘感知和跨模态特征采样的RGBD图像显著性检测方法。首先本文提出跨模态特征采样模块来充分融合RGB特征和Depth特征。具体而言,本文基于特征通道值的统计,给予不同的通道不同的权重来平衡RGB特征和Depth特征的贡献;其次,在本文的多层次密集融合中加入边缘敏感损失使显著对象的边界清晰。最后,提出两种多层次显著图融合模块重构出最终的显著图。第一种是逐像素融合模块,通过逐像素融合模块预测各个层次显著图的权重图,然后依据权重图在像素级别上融合各个层次的显著图得到最终的显著图。由于这种重构融合方式并不能发掘出新信息,本文提出第二种基于编码器-解码器的显著图融合模块。实验结果表明,相较于目前最新的RGBD图像显著性检测方法,本文的方法在各个数据集的指标上无论采用逐像素的融合方式还是编码器-解码器的融合方式都能取得更好的效果。第二,考虑到强监督情况下,使用像素级标注的标签代价是昂贵的。本文对弱监督的RGBD图像显著性检测方法进行研究,提出了基于图像分类的弱监督RGBD图像显著性检测方法。首先,本文分别利用基于梯度的类别响应和传统的RGBD图像显著性检算法生成类别响应图和显著图;其次,本文提出深度优化策略对类别响应图和显著图进行优化,并将二者融合生成初始的显著图伪标签;然后,通过本文提出的混合损失函数和显著图伪标签对全卷积神经网络模型进行迭代训练。最后,RGBD图像经过训练完成的全卷积神经网络模型得到最终预测的显著图。实验结果表明,本文提出的基于图像分类的弱监督RGBD图像显著性检测方法在多个数据集上,其性能可以超越其它弱监督RGBD图像显著性检测方法。
其他文献
机器阅读理解的目标是使机器具备理解自然语言文本的能力,已逐渐成为自然语言处理领域中的热点问题和重要研究方向之一。近年来,随着深度学习技术的兴起和大规模数据集的发布,该领域的相关研究取得了令人瞩目的进展。尽管如此,仍然存在诸多挑战如:以往方法中的问题-段落匹配结构难以准确刻画观点型问题中的语义关系;现有模型在多类型问题任务上尚不能很好解决答案类型多样化和数据不平衡带来的模型泛化性下降的问题;已有方法
学位
人体姿态估计,又称人体姿态识别,指对于给定人物图像或视频回归出人体关节点位置的过程。作为计算机视觉领域的热门研究课题之一,人体姿态估计在智能安防、人机交互、新零售、生物力学等多个领域有广泛应用。然而,当前人体姿态估计面临诸多难点。例如,视频背景复杂,人物相互遮挡,拍摄角度多变,光照强弱不均和人体姿态歧义等因素都会影响人体姿态估计准确度。现有的视频人体姿态估计模型主要利用光流或三维卷积网络来捕获视频
学位
近年来,随着医学信息的飞速发展,各种医学影像数据也越来越丰富,医学图像目标检测不断发展完善。针对腔镜甲状腺切除手术这一场景,甲状旁腺损伤可导致甲状腺患者术后终身的低钙血症,医生在腔镜手术时需要保障其不受到损伤。然而,甲状旁腺是很小的腺体,且在腔镜甲状腺切除手术中可能会出现充血和阻塞,这使得经验丰富的外科医生也很难识别它们。因此,通过计算机视觉中基于卷积神经网络的目标检测技术识别并定位甲状旁腺的位置
学位
现实世界中的复杂系统可以抽象为复杂网络,如蛋白质交互网络、科学家合作网络、文献引用网络等。复杂网络中的一大重要特征是社区结构,其含义为复杂网络中具有紧密内部连接的子图。在复杂网络中发现社区结构有助于揭示复杂网络的内在特性、了解复杂网络内部节点关系及演变趋势,为现实世界中的许多实际应用提供强有力支撑,因此社区发现逐渐成为复杂网络中的研究热点。然而,随着大数据技术的高速发展,复杂网络的规模呈指数倍数增
学位
随着地球村概念的提出以及经济的发展,金融市场变得更加开放,我国经济正在逐步进入信用经济时代,在这个时代,信用消费已成为人们常用的一种消费方式。随着各类信用用户的增多,信用缺失、信用欺骗等问题逐渐显现,这说明我国信用体制还有待完善。为了避免上述问题的发生,分析用户的信用成为关键环节。本文主要研究用户信用体系中的用户画像和信用评级,主要工作可分为以下几个部分:第一,介绍了金融数据的不平衡性并研究了不同
学位
图像修复的目标是利用图像中已知内容,按照一定的修复规则,自动地恢复丢失的内容,具有极其广泛的应用价值。而近年来深度学习在图像修复领域取得了一定的突破,但仍然存在一些问题,比如修复区域较大时,边缘容易产生伪影干扰等。且基于深度学习的模型大多数是基于自然图像进行设计训练,因此在自然图像上表现优秀的模型移植到特定样本经常难以达到预期效果,如医学图像。基于以上问题,本文主要的研究内容和工作创新点如下:(1
学位
近年来,人们在机器阅读理解的研究上取得了很大的进展。机器阅读理解的主要任务就是通过给定的文章和相对应的问题,利用模型的理解和推理能力给出问题的对应答案,因此如何提升机器阅读理解模型的推理能力,成为了机器阅读理解的重要研究方向之一。在机器阅读理解领域,大部分模型是针对特定阅读理解任务与数据集。本文分别针对离散推理和文本跨度预测类阅读理解问题提出相应的深度学习模型,并分别基于DROP(Discrete
学位
空气污染对人类健康造成严重危害,已成为一个难以解决或不可逆转的全球性环境问题。虽然建立了空气质量监测站来收集空气中的污染物成分数据,但由于监测站的建设费用非常昂贵,为了节省成本,监测站只部署在少数地点,并且需要进行维护,仅在部分时间启动。因此,我们只能得到部分位置和时刻的空气质量数据。由于空气质量数据量多且特征复杂,现有的工作根据已有部分位置和时刻的空气质量数据,使用深度学习技术推测其它位置和时刻
学位
随着信息通信产业的发展,在我们经历了互联的网时代、移动互联网的时代之后,如今已经走向物联的网时代,这个时代赋予了应用创新和发展的更大的机的会。在诸多场景应用中,对的于物的联网技术运用的得最丰富和的典型的就是的智能家居。智能家居是的以家庭的住宅为的平台,使用的物联网技的术集成与的家居生的活有关的基础的设施,提供了智能化的智能家居服务,从而为人们提供便利和舒适居住环境。同时随着各类智能虚拟助手的兴起,
学位
视觉目标跟踪是计算机视觉的一个重要研究领域。对于一个图像或视频序列,在仅有第一帧标注的情况下,视觉跟踪方法需要在后续的帧中预测目标位置。视觉目标跟踪可以对图像与视频中的任意目标进行跟踪,因而常常作为大型视觉系统的重要组成部分,具有较高的理论和应用价值。基于深度学习的目标跟踪方法在多个测试基准取得了较好的表现,但是仍然存在模型构建成本高、泛化能力受限、物体表征精确度低等问题。为应对上述挑战,本文从语
学位