基于跨模态深度互学习的指称图像分割方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:j621212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指称图像分割是近年来自然语言处理和计算机视觉交叉领域的一个重要研究方向。给定一幅图像和对应的指称表达式,指称图像分割的目的是分割出包含指称表达式所描述的视觉实体的相应区域。作为多模态任务的代表之一,指称图像分割已经被广泛地应用到交互式图像编辑、智能视觉搜索、机器人控制、人机交互等任务之中。虽然基于卷积神经网络的指称图像分割任务已经取得了巨大的进步,但是仍然存在着众多的挑战。大多现有的方法未能充分利用视觉特征和语言特征之间的相互指导关系,使得模型对多模态特征之间一致性学习的过程变得非常困难。基于此,本文提出了两种基于跨模态深度互学习的指称图像分割算法来改善这个问题。第一个算法设计了一种全新的双向关系推理网络来捕捉多模态特征之间的依赖关系。该算法使用双向跨模态注意模块对多模态特征进行建模,利用视觉和语言之间的双向引导机制来加强多模态特征之间的一致性关系,解决了高维语言特征与低维视觉特征的对齐问题。该算法同时提出了门控双向融合模块来整合多层次特征,利用门函数引导多层次信息的双向流动,有效地增强了最终分割结果的细节信息。第二个算法设计了一种基于Transformer的指称图像分割网络,首次将Transformer结构应用到指称图像分割领域之中。该算法使用基于Transformer的多模态特征编码器融合单元来学习多模态特征之间的相互引导关系,帮助网络理解更复杂的语言描述。跨模态编码器融合的方案使跨模态深度互学习过程发生在特征编码阶段,相比之前的算法可以更显著地提升网络的多模态特征推理能力。为了进一步增强分割结果的细节表达,该算法提出基于Transformer的多层次特征融合单元来融合多层次特征,提升分割精度。两种算法在多个标准数据集上均取得了优秀的结果。
其他文献
非聚焦模糊区域检测是为了检测图像中非聚焦模糊区域和聚焦清晰区域,是一种像素级任务,在自动聚焦、图像恢复等计算机视觉领域有着广泛的应用。近年来,深度卷积神经网络在非聚焦模糊检测任务中展示出了强大的特征提取能力,取得了很大的进展。然而,大多数基于卷积神经网络的方法总是依赖于昂贵的像素级标签。为了降低标签成本,本文提出利用框级标签完成像素级的非聚焦模糊检测任务。框级标签能够提供非聚焦区域大致位置的线索,
深层抗滑稳定分析是重力坝抗震计算中的一项重要内容,采用有限元方法进行深层抗滑稳定计算需要在计算模型中预先设置滑动面,当重力坝坝基深层存在多个缓倾角和软弱结构面时,不仅整个有限元模型建模和网格剖分将面对较大的困难,而且会面临局部单元质量降低的问题。本文提出了一种基于BP神经网络的重力坝深层抗滑稳定有限元分析方法。该方法无需在有限元计算模型中设置滑动面,结合BP神经网络算法根据坝基深层空间应力关系拟合
六足机器人作为一类高冗余、多自由度的足式机器人,在适应性、可靠性、运动性能等方面具有其他类型机器人无法比拟的优势,但是过于复杂的非线性结构为六足机器人运动控制与步态规划研究带来了挑战。为了保证六足机器人运动控制的准确性,提高六足机器人环境适应能力,进而实现六足机器人完全自主行走,六足机器人的步态规划与控制问题成为近十年来足式机器人研究领域的关键问题。本文首先对六足机器人国内外研究现状进行了分析,从
移动通信和互联网技术的普及给人们通信生活带来极大便利的同时,也使得通信隐私问题越来越受关注,以隐蔽安全通信为目的的信息隐藏技术研究也越来越多,作为其对抗技术,信息隐藏分析技术的研究也愈受重视。随着近年来深度学习与图像信息隐藏分析技术的结合,信息隐藏分析检测性能越来越好,但目前深度信息隐藏分析模型研究主要集中于数据匹配条件下性能提升,本文面向数据源失配场景和模型效率提升,进行了以下方面的研究:在空域
时间序列模型运用数据信息开展系统状态的预测与分析,在工业、经济和医疗等诸多领域取得了广泛的应用。随着建模数据规模和复杂程度的日益加剧,人们希望时间序列模型不仅能够预测未来时刻的信息,还能提供考察对象在某一时间段内的变化趋势,进而对模型结果提供一定的语义解释。本文将使用信息粒化技术探讨时间序列数据的粒度表示、区间时间序列的建模和预测结果的评估等内容,主要工作包括:首先,运用信息粒化技术将时间序列数据
21世纪以来,随着计算机运算能力的大幅度提高,神经网络在诸如土木工程、生物学、图像识别等多种领域中得到了越来越多的重视。近些年,众多行业和领域在机器学习研究中也投入了越来越多的精力和资金,在作为世界经济发展的支柱型行业之一的建筑与土木工程领域中,传统计算技术正在与机器学习算法相融合,从而推动技术进步和基础产业的升级换代。另一方面,比例边界有限元方法作为一种新发展的半解析计算科学,其与机器学习的结合
交通标志检测技术是目标检测领域的一个热点和难点。实际场景中,道路街景复杂多样,交通标志在整张图片中的占比非常小,在进行特征提取时交通标志自身的特征往往会被周围的背景和其他小尺寸目标,例如广告牌等物体不断稀释,导致实际场景中检测效果较差。另外,交通标志检测系统通常搭载在智能汽车等移动平台上,需要在极低时延内对前方标志做出快速准确地识别,而现有方法很难在检测精度和检测速度上做到均衡。针对上述问题,本文
智能决策是人工智能领域的重要发展方向之一,可在博弈环境中基于强化学习方法来实现。传统强化学习方法中一般将参与交互的其他智能体即对手看作环境的一部分,由于未考虑对手的行为特征,可能会导致误判而影响决策结果。因此对博弈中参与交互的对手进行建模成为研究的一个热点问题。当前的对手建模技术多数都着眼于固定的对手策略,而在现实中的对手策略通常是动态变化的。采取动态策略的对手智能体在博弈时,其策略的变化会导致智
随着信息技术的发展,各类复杂网络层出不穷,识别网络中的关键节点可以在一定程度上帮助了解网络特性,维护网络的结构和功能。关键节点问题(CNP)是NP难组合优化问题,对该问题的研究有着重要的理论价值和应用价值。关键节点问题在于移除图中的某些节点,使得剩余图满足预定义的连通性度量。目前针对CNP问题的算法存在运行时间较久或迭代较多、准确性不够的问题,仍需要进一步的改进与研究。针对6类CNP问题中关注较多
随着无人机技术在智能化战争中的应用越来越广泛,在复杂环境下无人机的自主飞行能力逐渐成为研究的热点问题。为了在复杂环境下实现自主飞行,无人机通常必须具备优秀的自主导航能力。作为无人机自主导航过程中的关键环节,无人机的三维航迹规划不仅空间复杂度高,而且通常需要实现对多个目标的优化。本文围绕作战场景下无人机的多目标三维航迹规划问题展开研究,提出了离线规划和在线规划相结合的三维航迹规划方法,从而得到同时满