结合视觉特征和场景语义的图像描述生成

来源 :计算机学报 | 被引量 : 5次 | 上传用户：dongwujunye

【摘要】

：

现有的图像描述生成方法大多只使用图像的视觉信息来指导描述的生成,缺乏有效的场景语义信息的指导,而且目前的视觉注意机制也无法调整对图像注意的聚焦强度.针对这些问题,本文首先提出了一种改进的视觉注意模型,引入聚焦强度系数自动调整注意强度.在解码器的每个时间步,通过模型的上下文信息和图像信息计算注意机制的聚焦强度系数,并通过该系数自动调整注意机制的"软"、"硬"强度,从而提取到更准确的图像视觉信息.此外

【作者】

：

李志欣魏海洋黄飞成张灿龙马慧芳史忠植

【机构】

：

广西师范大学广西多源信息挖掘与安全重点实验室,西北师范大学计算机科学与工程学院,中国科学院计算技术研究所智能信息处理重点实验室

【出处】

：

计算机学报

【发表日期】

：

2020年09期

【关键词】

：

图像描述生成注意机制场景语义编码器-解码器框架强化学习 image captioningattention mechanismscene semanti

【基金项目】

：

国家自然科学基金(61966004,61663004,61866004,61762078),广西自然科学基金(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365),广西多源信息挖掘与安全重点实验室基金(16-A-03-02,MIMS18-08,MIMS 19-02)资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于软件无线电的高频多普勒接收机设计

利用软件无线电技术设计了一种新型高频多普勒接收机。该接收机采用高稳定度频率源、滤波放大器、数字下变频器等，系统具有参数设置灵活，同时进行多通道信号多普勒频移分析的能

期刊

软件无线电高频多普勒接收机数字下变频software defined radio HF Doppler receiver digital down co

一个新的多系数混凝土收缩模型

对5种强度等级(不同水泥用量和水灰比)、2种养护方式、2种湿度环境共69个混凝土棱柱体试件进行了长达589d的收缩试验,收集了国内外588个混凝土收缩试验数据,通过归一拟合,获

期刊

混凝土棱柱体收缩试验收缩模型影响系数concrete prism shrinkage test shrinkage model influence co

普通高校学生开展体育俱乐部制的发展研究

本文通过多年来对体育课的教学模式进行分析,提出了在普通高校体育课中实施体育俱乐部的必要性,可行性及对策。

期刊

普通高校体育学生俱乐部终身体育

基于率失真的差分隐私效用优化模型

隐私保护与数据效用矛盾问题的解决方案是隐私保护领域中的一个研究热点.针对差分隐私离线数据发布场景中的隐私与效用平衡问题,利用率失真理论研究了平衡隐私与数据效用的最

期刊

率失真函数隐私与效用平衡差分隐私互信息隐私泄露数据效用优化rate-distortion functionprivacy-utility tradeo

基于小波变换的拟1／f信号生成

通过对高斯白噪声进行小波变换,对变换后的小波系数进行正交归一化,找到了满足1/f信号生成定理的正交小波系数集,通过Karhunen-Loeve展开式生成了1/f信号,仿真结果证明该方法

期刊

1/f信号正交小波基小波变换滑动平均模型Karhunen-Loeve展开式f noise orthonormal wavelet bases wave

对高校实施政府会计制度若干问题的探讨

政府会计改革带来的“双系统、双要素、双基础、平行记账”模式,给高校会计工作带来了重大变化和创新,重构了高校财务会计和预算会计核算模式。文章试从财务会计与预算会计结

期刊

政府会计制度高校财务会计预算会计

用于去除随机脉冲噪声的两阶段盲卷积降噪模型

相对于经典的采用逐点检测与复原方式实现的开关型随机脉冲噪声(Random-Valued Impulse Noise,RVIN)降噪算法,基于深度卷积神经网络构建的非开关型RVIN降噪模型在降噪效果和执行效率上均有显著优势,但也存在着固有的数据依赖缺陷,不能在降噪效果和易用性两个方面同时获得最佳性能.为此,以DnCNN(Denoising Convolutional Neural Network)深

期刊

随机脉冲噪声深度卷积神经网络数据依赖两阶段稀疏采样图像降噪效果易用性random-valued impulse noisedeep convolu

结合视觉特征和场景语义的图像描述生成

与本文相关的学术论文