基于跨模态融合的指称分割方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:troy003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指称分割问题旨在根据语言表达的描述定向地分割图像或者视频中的相关视觉区域。与传统的语义分割或者实例分割任务相比,它可以不依赖于预定义的语义类或者目标类,直接根据语言的描述分割图像中或者视频帧中的任意区域,从而更加灵活地应对分割中的不确定性。指称分割作为计算机视觉与自然语言处理交叉领域中的一项基础而关键的技术,在人机交互、智能问答、机器人等领域具有广泛应用。近年来,随着人工智能技术的迅猛发展,有关指称分割的研究逐渐得到重视,并成为跨媒体领域的重要课题之一。目前,有关指称分割技术的研究已经取得较大进展,但仍存在一些问题和挑战。例如,如何推动复杂场景中的视觉和语言信息的深度交织,如何利用弱标注实现高性能指称分割等。针对上述问题,本文基于深度学习技术,对指称图像和指称视频分割问题进行了深入研究。本文的主要创新工作如下:(1)为了增强不同尺度多模态特征之间的相关性,本文提出了一种基于编码器融合的指称图像分割算法。该算法利用协同注意力机制,将语言特征嵌入到视觉编码器中,将其转换成多模态特征编码器,并实现语言对不同尺度多模态特征的渐进式引导。其中协同注意力机制用于学习多模态特征的共同映射,使它们在新的特征子空间有更好的语义一致性,以最大程度发挥语言的引导作用。在网络的解码阶段,设计了一个边界增强模块来加强网络对目标边界的关注,以便使网络恢复出更完整的指称区域。实验结果表明,该算法可以明显提高指称图像分割的精度。(2)考虑到指称图像分割与定位任务的关联性,本文提出了一种多任务网络模型。该模型首先构建一个双向跨模态注意力模块来融合多模态特征,其先利用视觉引导学习逐像素自适应的语言上下文,而后再用学习到的语言上下文去反向引导任意两个视觉位置之间的关系建模,通过两者的相互作用,可实现不同模态间信息的相互嵌入。此外,本文设计了一个自下而上的多层次特征融合分支,它将低层次特征所包含的局部细节信息融合进高层次的全局特征之中,并将指称分割预测图作为门函数来控制融合过程中的信息流动,使网络更加关注指称区域的边缘细节,从而使网络产生更贴合目标的定位框。实验分析表明,该模型在分割的性能和速度上同时达到了先进水平。(3)为了缩减大量的像素级数据标注所消耗的人工成本,本文提出了一种基于边界框注释的弱监督指称图像分割算法。该算法首先设计了一个对抗的边界损失,促使网络在边界框水平真值的监督下学习出指称目标的轮廓。然后,利用预测出的轮廓去筛选无监督算法所生成的区域提案,进而构建伪标注。接着,在利用伪标注去训练分割网络时,为了削弱噪声标签的影响,该算法采用两个网络去相互为对方挑选高置信度的标签。该算法从不同角度过滤伪标注中的噪声信息,在一定程度上缓和了过拟合现象,从而增强了分割网络的性能。(4)为了探索多层次的文本语义上下文,本文提出了一种基于双流交织编码的指称视频分割算法。该算法采用多个级联的Transformer模块来提取多层次的语言上下文,并在语言编码器和视觉编码器之间多次嵌入视觉语言互引导模块,推动了两个编码器之间多水平信息由浅到深的渐进式交互,实现了多模态特征的深度交织。为了加强视频序列中多模态信息的时序一致性,本文设计了一种语言引导的多尺度动态滤波模块,利用语言引导的时空上下文学习一组位置自适应的多尺度动态滤波器,并用其更新当前帧的特征。实验结果表明,该算法通过模态间以及帧间信息融合,有效地提升了指称视频分割的性能。
其他文献
目的 建立检测中成药中非法添加物二乙氨基前他达拉非的高效液相色谱-高分辨四极杆-飞行时间-质谱(HPLC-QTOF-MS)法,并根据他达拉非类化合物的特征碎片离子实现非目标化合物的筛查。方法 色谱柱为Agilent EC C18柱(100 mm×3.0 mm,2.7μm),流动相为乙腈-0.1%乙酸溶液(梯度洗脱),流速为0.3 mL/min,柱温为35℃,进样量为1μL;采用Q-TOF-MS作检
期刊
新时代中国特色社会主义高校育人工作,要深化改革学生评价,促进德智体美劳全面发展。利用大数据技术构建高等教育质量保障体系、全面开展高校学生培养评价已成为极其重要的前提和保障。随着高校信息化建设的不断推进,高校大数据环境为学生带来了全方位的影响,承载着学生的学习和生活几乎所有行为表现信息。本论文立足高校大数据资源环境,尝试性地从管理学的工商管理、管理科学和教育管理的多学科交叉视域,聚焦高校学生行为管理
学位
蒸汽冷凝传热强化对实现能源系统的高效化和集成化具有重要意义,滴状冷凝由于具有比膜状冷凝高一个数量级的传热性能而受到研究者的广泛关注。近年来,利用气-液-固界面效应强化冷凝传热一直是热点方向。运用固体表面微纳结构可调控液滴润湿模式,促进液滴弹跳脱离,降低液滴尺寸分布,进而提高传热性能。但是,与过去文献研究的低压蒸汽冷凝或含不凝气蒸气冷凝相比,在常压下纯蒸汽冷凝核化的速率较大,并且初始核化液滴尺寸较小
学位
利用可再生电能驱动水分解制氢是实现可再生能源存储与转化的一个重要途径。然而,水氧化半反应(OER)是一个多电子-多质子、多步的反应过程,热力学能垒较高和动力学缓慢,大多数水氧化催化材料的性能和稳定性较低,难以满足大规模应用的需求。目前工业电催化水氧化主要使用Ir O2、Ru O2等贵金属催化剂,但贵金属储量有限,难以大规模应用,因此设计合成非贵金属的水氧化电催化剂替代贵金属催化剂是十分必要的。目前
学位
当今世界“碳达峰”与“碳中和”浪潮涌动,而新型高能量密度与高安全性电化学储能技术的开发是优化我国能源结构、发展高质量经济体的重要手段。锂/钠金属具有极高的理论比容量、较低的质量密度和极低的氧化还原电位,被认为是下一代最具前景的高能量密度电池负极材料。然而,由于负极的高反应活性、枝晶生长、死锂/死钠和体积膨胀等问题,导致电化学性能极差且伴有极大安全隐患,严重阻碍了锂/钠金属电池的实际应用。因此,提升
学位
抗坏血酸(Ascorbic acid,AA)在自然界中广泛存在,具有生物相容性好、储运方便及对聚合物电解质膜低渗透率的优点,可作为生物质燃料驱动聚合物电解质膜燃料电池,在便携式电源和可植入式医疗设备领域有潜在的应用价值。然而,阳极侧AA氧化反应(Ascorbic acid oxidation reaction,AAOR)动力学缓慢,目前缺乏高效的催化剂,而阴极侧氧还原反应(Oxygen reduc
学位
通过对2020年5月11日南宁市南部暴雨成因进行探究,结果表明,此次暴雨发生在副高边缘短波槽东移和低层切变线缓慢南移背景下,近海的水汽输送及本地充沛的水汽含量保证暴雨所需的水汽供应,南宁东南部午后位于锋前暖区中,对流容易在高能区被激发,形成准静止的中β尺度多单体线状强风暴;西部夜间受冷锋加强南移影响,暴雨云团与能量锋区的位置更接近。各家数值模式中ECMWF最优,预报降雨强度准确但落区偏北,是由于其
期刊
近年来,化石能源的消耗日益增加,碳排放量也持续上升,能源与环境问题逐渐引起人们的广泛关注。发展先进的节能技术和方法来回收工业中广泛存在的低温余热对能源利用效率的提高以及节能减碳目标的实现具有重要意义。随着化工系统工程和热能与动力工程学科的发展,可实现余热回收的换热器网络综合技术和压缩-吸收复叠制冷、有机朗肯循环等先进热力循环技术已经取得巨大进步。对于低温余热充足且存在冷、热、电等多种应用需求的工业
学位
我国提出了2030年“碳达峰”与2060年“碳中和”目标,生态环保产业相应面临着机遇与挑战。工业固体废弃物资源化利用可以有效助推“碳达峰”“碳中和”。本文分析了大宗工业固废磷石膏在建筑材料领域的应用技术及产品。指出现有磷石膏利用方式存在的问题及解决方案。提出磷石膏综合利用产品需要多元化,提高热量利用效率,降低生产成本。Ⅱ型无水石膏产品能有效降低磷石膏中磷,氟化合物和有机质的不利影响;α-半水石膏产
期刊
多孔纳米片是一种二维结构,具有高的孔隙率、易于利用的比表面积以及短的z轴方向扩散路径,有利于提高传质速率和表面活性位的利用率,在吸附分离领域具有广泛的应用。目前,采用溶液合成法已成功制备出横向尺寸从纳米尺度到微米尺度的多孔纳米片。然而,纳米片具有高的表面能,显示出热力学不稳定性,在溶液中纳米片极易发生堆叠和卷曲,导致调控表面形貌的过程难控制。因此,通过溶液法制备表面形貌和化学性质可控的多孔纳米片仍
学位