论文部分内容阅读
近年来,随着人工智能技术的快速发展,视觉显著性检测技术逐渐成为当今智能视觉时代的一个重要应用研究方向。该技术旨在选择出图像的重要信息,在辅助自动驾驶、视频图像监控等任务中扮演着重要角色。目前该领域的研究难题是如何让计算机准确模拟人眼的双目视觉图像处理能力。本文以生物视觉理论和机器学习理论为基础,以构建更加符合人类视觉认知的RGB-D显著性检测模型为目标,针对RGB-D图像视觉显著性建模中有效提取颜色和深度多模态特征、有效融合多模态特征等问题,展开了一系列研究工作。具体的研究内容和创新点如下:1.针对自底向上的RGB-D图像视觉显著性中的特征优先级别计算问题,提出了一种基于对比度和深度背景先验引导的显著性计算方法。该方法主要通过一个整体框架计算颜色和深度这两种模态对自底向上的显著因素的影响,不仅在视差图上构建背景先验知识用于深度通道显著图的计算,而且对颜色通道计算的对比度赋予一定的优先级别从而实现颜色和深度显著图的整合。通过在公开数据集上的对比实验,验证了该框架能够取得较好的RGB-D图像视觉显著性检测效果。2.针对复杂场景下的显著性目标难以描述问题,提出了一种基于度量学习的RGB-D图像视觉显著性计算方法。该方法利用卷积网络分别提取颜色和深度模态特征,并投射到一个高维的度量空间,将多模态度量损失项引入到交叉熵损失函数中,从而实现基于多模态特征的显著和非显著目标学习。在公开数据集上的实验证明,该框架能够有效的学习到高层属性特征,可以提升显著性检测模型的泛化能力。3.针对颜色和深度通道计算的多层次特征提取融合问题,提出了一种基于深度融合双路卷积神经网络的RGB-D图像视觉显著性计算方法。该方法使用双路卷积网络实现颜色和深度模态的层次化特征提取,并利用多个卷积层在不同的分辨率上融合两个模态特征。另外,使用长短时记忆网络捕捉和记忆显著区域特征的尺度空间依赖关系,不仅实现了多模态特征在空间内容上的有效融合,并将反卷积特征在多尺度空间内容上进行有效融合。实验证明,该方法取得较好的RGB-D图像视觉著性检测效果。综上所述,本文对RGB-D图像视觉显著性建模中多模态特征的融合问题在不同层面上进行了探索。通过大量的实验证明了各种不同的融合方法对RGB-D图像视觉著性计算模型的有效性。该研究对RGB-D视觉计算和理解有一定的理论价值。