面向视觉问答的多模块协同注意模型

来源 :计算机工程 | 被引量 : 0次 | 上传用户:guoyurun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。为此,提出一种面向视觉问答的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解。首先,通过图注意力机制建模不同类型对象间关系,以学习问题的自适应关系表示;其次,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性;最后,通过注意力增强模块来提升模
其他文献
近年来,以非合作目标捕获为主的空间在轨服务技术已成为航天领域研究热点。在硬件资源有限的航天器平台上,非合作目标位姿估计算法面临着及时性和准确性的矛盾。基于此,提出了兼顾速度与精度的超轻量级目标检测网络YOLO-GhostECA,其利用GhostBottleneck来减少特征图冗余和高效注意力(Efficient Channel Attention)机制提取核心特征图,旨在降低模型参数,提升运算速度
期刊
在现实场景中,传统视觉SLAM算法存在静态环境假设限制。由于运动物体的影响,传统的视觉里程计进行大量误匹配,导致系统无法在现实场景中稳定运行。本文基于深度学习和多视图几何提出一种面向室内动态环境的视觉SLAM算法。首先,采用目标检测网络对动态物体进行预检测确定潜在运动对象,其次,根据预检测结果利用多视图几何完成运动物体重检测,确认实际产生运动的物体并将场景中的对象划分为动态和静态两种状态。然后,对
期刊
因材料缺陷而导致的安全问题一直是备受人们关注的热点问题,如何实现对材料缺陷的快速准确识别与定位是当今材料缺陷问题研究的重点。传统的无损检测方法主要通过超声波、X射线等先进技术,实现对材料缺陷的识别与定位,这种方法虽然解决人工检测效率低等问题,但还是难以实现智能化、自动化与高精度的多重要求。计算机领域的进步刺激了机器视觉在材料缺陷检测方面的飞速发展,机器视觉检测技术特点主要是将无损检测,自动化与智能
期刊
人脸口罩佩戴检测是公共场所疫情防控极为重要的措施,如何智能、高效地检测口罩佩戴情况具有重要意义。为实现多尺度条件下,模型压缩和加速检测,提出一种基于改进YOLOv5的轻量化算法,设计更为经济的GhostBottleneckCSP和ShuffleConv模块替换YOLOv5原网络中的C3及部分Conv模块,缓解特征通道融合过程的计算量占用问题并增强了特征的表达能力。实验结果表明,改进后模型识别精度最
期刊
Mg粉/CO_2粉末发动机是火星探测中较为理想的原位资源利用方案,为了掌握Mg/CO_2粉末发动机稳定点火燃烧特性,在考虑氧化层厚度对Mg颗粒熄火影响的基础上,基于涡耗散/有限速率模型建立了点火燃烧模型,并应用数值计算方法研究了Mg粉颗粒粒径(5μm,10μm,15μm,20μm和25μm)、入口预混气流雷诺数(1500,2000,2500,3000和3500)和CO_2/Mg氧燃比(0.5,1,
期刊
针对目前图像目标识别模型对计算机算力要求过高,且占用内存较大,无法部署在手机等小型计算机上的问题,为了降低模型的参数量和复杂度,本文提出了一种轻量化卷积神经网络ConcatNet,该模型采用特征拼接的方式,多支路并行,并将通道注意力机制与深度可分离卷积结合,实现了网络的轻量化。为了评测模型的性能,在CIFAR-10和CIFAR-100数据集上进行初步评测,并在光学数据集ImageNet上进行最终测
期刊
红外与可见光图像融合技术能够同时提供红外图像的热辐射信息和可见光图像的纹理细节信息,在智能监控、目标探测和跟踪等领域具有广泛的应用。两种图像基于不同的成像原理,如何融合各自图像的优点并保证图像不失真是融合技术的关键,传统融合算法只是叠加图像信息而忽略了图像的语义信息。针对此问题,提出一种改进的生成对抗网络,生成器设计了局部细节特征和全局语义特征两路分支捕获源图像的细节和语义信息;在判别器中引入谱归
期刊
针对基于卷积神经网络的图像超分辨率重建方法存在的结构复杂、参数量庞大、重建速度慢等问题,提出了一种基于深度可分离卷积的轻量级图像超分辨率重建网络。利用深度可分离卷积提取图像的特征信息,有效减少网络的参数量与重建时间,同时使用对比度感知通道注意力机制,获取对比度信息作为全局信息,以增强重建图像的细节纹理。实验结果表明,该网络在重建性能具有竞争力的前提下,参数量比基于残差特征蒸馏网络的轻量级图像超分辨
期刊
深度学习中的卷积神经网络(convolutional neural networks,CNN)能充分利用计算机的计算能力,高效的提取遥感图像的特征,取得很好的成果,特别是在高光谱图像分类方面取得了很大的进展。为了在有限的高光谱样本上充分提取光谱和空间特征,提高高光谱图像分类的精度,提出了混合深度卷积联合注意力(hybrid deep CNN-attention,HDC-Attention)的模型。
期刊
三维模型对应关系计算在自动驾驶、虚拟现实和智能交通等领域均有着广泛的应用。针对于三维模型几何结构和尺度发生很大的变化时,低层次的几何信息描述符提取的特征不足的问题,提出通过引入先验知识来完成三维模型对应关系计算。本文利用深度学习网络模仿人类计算先验知识,以此对模型各部分之间的几何相似性进行编码,从而解决了模型在各部分发生显著变化时,无法应用低层次几何信息计算模型间对应关系的问题。首先,使用多视图卷
期刊