基于复合图文特征的视觉问答模型研究

来源 :计算机应用研究 | 被引量 : 2次 | 上传用户：xiewenping87

【摘要】

：

针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征。该方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意

【作者】

：

邱南顾玉宛石林李宁庄丽华徐守坤

【机构】

：

常州大学计算机与人工智能学院阿里云大数据学院

【出处】

：

计算机应用研究

【发表日期】

：

2021年08期

【关键词】

：

视觉问答复合视觉语言特征区域特征多模态融合

【基金项目】

：

国家自然科学基金资助项目(61906021),常州市城市大数据分析与应用技术重点实验室资助项目(CM20193007),江苏省研究生科研创新计划资助项目(KYCX21-2829)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

融合句法指导与字符注意力机制的案情阅读理解方法

案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情

期刊

阅读理解裁判文书字符注意力句法指导注意力深度学习

基于强化学习和机器翻译质量评估的中朝机器翻译研究

针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer。首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题。实验表明,QR-Transformer有效提升了中

期刊

机器翻译中朝机器翻译强化学习机器翻译质量评估

司机分心驾驶检测研究进展

随着车辆工业和世界经济的快速发展,私家汽车数量不断增加,导致交通事故越来越多,且交通安全问题已经成为全球关注的焦点问题。司机分心驾驶检测的研究主要分为传统计算机视觉(CV)算法和深度学习算法两种。基于传统CV算法的司机分心检测通过尺度不变特征转换(SIFT)、方向梯度直方图(HOG)等特征算子提取图像特征,然后结合支持向量机(SVM)建立模型并对图像进行分类。然而传统CV算法具有对环境的要求高、运

期刊

分心驾驶卷积神经网络深度学习司机检测机器学习

宽度学习系统研究进展

当数据规模庞大时,深度学习模型会遇到权重调整耗时,容易陷入局部最优解的问题。为了解决这些问题,宽度学习系统应运而生,宽度学习系统不仅结构简单、训练速度快、准确率高,而且还具有增量学习的优势。介绍了宽度学习系统的产生背景和发展历程,阐述了宽度学习系统的基础理论与实现方法,对比了它与深度网络的异同;介绍了宽度学习系统在图像分类、数值回归、脑电信号处理等应用中的改进算法,分析了这些算法的优势和不足。最后

期刊

宽度学习系统神经网络深度学习图像分类增量学习

科研项目同行评议专家学术专长匹配方法

现有的评审专家推荐过程通常依赖于人工匹配,在进行专家推荐时不能充分捕捉评审项目所属学科与专家研究兴趣之间的语义关联,导致专家推荐的精确性较低。为解决这个问题,提出了一种科研项目同行评议专家学术专长匹配方法。该方法构建学术网络以建立学术实体联系,并设计元路径捕捉学术网络中不同节点间的语义关联;使用随机游走策略获得项目所属学科与专家研究兴趣共现关联的节点序列,并通过网络表示学习模型训练得到具有语义关联

期刊

专家推荐同行评议学术网络元路径表示学习

基于自注意力长短期记忆网络的Web软件系统实时剩余寿命预测方法

为了能够实时准确对Web软件系统的剩余使用寿命(RUL)进行预测,考虑Web系统健康状态性能指标的时序特性和指标间的相互依赖特性,提出了一种基于自注意力长短期记忆(Self-Attention-LSTM)网络的Web软件系统实时剩余寿命预测方法。首先,搭建加速寿命测试实验平台来收集反映Web软件系统老化趋势的性能指标数据;然后,根据该性能指标数据的时序特性来构建长短期记忆(LSTM)循环神经网络以

期刊

Web软件系统剩余使用寿命长短期记忆网络自注意力机制抗衰决策

基于混合相似度和差分隐私的协同过滤推荐算法

现有协同过滤推荐算法中,存在的评分片面、主观性强、评分矩阵稀疏性等因素影响了推荐的精确度,并在推荐中存在隐私泄露等问题。针对上述问题,提出一种基于混合相似度和差分隐私的协同过滤推荐算法。该算法基于多种相似度进行加权计算构造混合相似度,提高推荐精度;以混合相似度作为质心更新和分类条件,利用改进的K-means算法将与目标用户相似度高的用户进行聚类;采用枚举方法在目标用户集中划分子集,并基于混合相似度

期刊

推荐系统隐私保护协同过滤算法差分隐私混合相似度

面向延迟接受的移动群智感知多任务分配

针对现有任务分配策略的不足,提出了一种面向延迟接受的移动群智感知多任务分配策略。首先,基于平台和工人的不同需求,提出了一种方法实现任务和工人的双向匹配。其次,考虑到任务的紧急性,设计了一种混合延迟接受算法。最后,为了验证所提策略的性能,将其与两种基准的任务分配方法进行了比较。实验结果表明,所提任务分配策略在提高平台效用和工人满意度方面是有效的。

期刊

移动群智感知多任务分配混合延迟接受算法

船舶狭小空间虚拟人维修姿态建模技术

针对现有虚拟人仿真技术在船舶狭小空间维修作业中存在的效率低下、需要较多人工干预、仿真成本高等问题,提出一种虚拟人姿态混合建模仿真技术。根据狭小空间中人体维修作业的特点,将虚拟人姿态建模分为虚拟人躯干及下肢姿态建模与虚拟人手臂姿态建模两部分。首先,提出一种基于姿态库的狭小空间姿态自动匹配算法,以确定虚拟人在狭小空间中的操作位置与姿态;在此基础上,建立多目标优化模型对手臂姿态进行求解,并实现维修仿真姿

期刊

虚拟人建模狭小空间姿态库空间匹配多目标优化

用于方面提取的多元关系协作学习模型

方面级情感分析广泛应用于商品评价、餐饮、电商决策等,该任务的一个核心点是方面词提取。目前常用方法是用观点词来辅助提取方面词对文本进行序列标注,或使用跨度标记法预测方面词开始与结束的位置。这些方法没有考虑到观点词提取、情感极性分类对方面词提取的影响。针对这个问题提出一种用于方面提取的多元关系协作学习模型,利用观点词提取、方面词提取、情感极性分类间的关系建模,在关系中实现多任务的协作学习与联合训练。在

期刊

方面级情感分析方面词提取协作学习联合训练

基于复合图文特征的视觉问答模型研究

与本文相关的学术论文