基于对称注意力机制的视觉问答系统

来源 :计算机系统应用 | 被引量 : 1次 | 上传用户:nomaryo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信息.本文提出了一种基于对称注意力机制的模型架构,能够有效利用图片和问题之间具有的语义关联,进而减少整体语义理解上的偏差,以提高答案预测的准确性.本文在VQA2.0数据集上进行了实验,实验结果表明基于对称注意力机制的模型与基线模型相比具有明显的优越性.
其他文献
针对轴承早期故障信号非线性、非平稳和故障特征难以提取的问题,提出一种变分模态分解(VMD)与流形学习相结合的特征提取方法。该方法应用VMD将信号分解成包含不同故障信息的
为研究新建卫星厅对中转旅客的航班衔接的影响,分析中转旅客的换乘紧张程度,提高机场资源利用效率,本文对登机口分配问题进行研究.在最小化登机口使用个数的前提下,考虑了中
为了解决语音情感识别中数据集样本分布不平衡的问题,提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法.该方法首先对语音情
深度学习在图像识别领域凸显出了优势,而在深度学习图像识别模型训练的准备阶段,制备图像数据集需要人工将图片上的信息进行标注.这一准备过程往往需要耗费大量人力成本与时间成本.为了提升数据制备阶段的工作效率,从而加速深度学习模型的生成与迭代,提出了一种基于微服务架构的多人协作众包式图像数据集标注系统.通过将繁重的标注任务划分为不同的小任务,使更多的人能够参与并协同完成数据标定.通过引入对象存储机制并采用
缩宫素是产科催产、引产和产前胎儿监测的首选药物,产时缩宫素剂量调控不当可增加不良妊娠结局的风险,目前临床缩宫素的输注主要依靠医护人员手动调节,但在人工调控过程中存
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出
针对人流密集区域停车场管理效率低下,停车难的问题,提出了一种基于车牌字符识别技术的临时停车场自动收费系统.首先,通过停车场出入口处的摄像机抓拍车辆图像;其次,利用图像处理技术进行车牌定位、车牌矫正、车牌字符分割,并搭建卷积神经网络实现车牌字符识别;然后,通过MySQL数据库实现车辆进出时间存储、停车时长及收费金额的计算;最后,设计了管理显示界面实现车辆信息的管理和显示.利用OpenCV和C++对整
在推荐系统中,用户对物品的兴趣是动态变化的,会受用户自身历史行为、朋友历史行为甚至短时热点等多方面因素影响.而如何在推荐系统中对用户的时序兴趣进行描述并提取有效信
在2013年制定的H.265/HEVC视频编码标准获得成功后,新一代视频编码国际标准H.266/VVC在ITU⁃T的VCEG和ISO/IEC的MPEG通力合作下已于2020年7月完成。尽管VVC视频编码层的结构
针对传统无人机目标分类方法效率低、特征提取能力不足和适应性差等问题,通过对无人机自身特点和现有分类方法的分析,提出了引入注意力机制优化深度卷积神经网络的无人机分类方法.设计多组对比实验,根据实验效果设计出模型结构为3层卷积层、3层池化层、2层全连接层的卷积神经网络进行训练,得到最优的无人机目标分类模型,再引入卷积注意力模块对特征图元素进行加强和抑制,引入批归一化层加速模型收敛,提升泛化能力.实验结