基于深度学习的图像描述算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:niyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务致力于赋予计算机“看图说话”的能力,即在给定输入图片的条件下自动生成符合自然语言表达习惯且真实反应图像内容的文字序列。该任务通常会采用图像识别模型或物体检测模型作为特征提取器或实体检测器来获取供描述模型进一步使用的图像特征。然而,现存的图像描述算法并不能很好地利用上游任务的输出,这往往是由于模型在解决序列到序列生成任务中的长距依赖问题时引入了注意力机制,从而引发“过关注”问题,最终导致模型忽略图像中不显著的内容,造成描述模型生成的语句缺失部分图像细节。此外,通过最小化交叉熵目标函数优化模型参数时会引入曝光偏差和标签偏差:曝光偏差是指模型在训练阶段总是输入参考语句中的单词而在测试阶段使用的是生成语句的单词,这会导致误差积累,标签偏差是指测试阶段总是生成训练阶段图像中出现的高频场景或参考语句中出现的高频词汇。同时,交叉熵损失函数也会导致描述语句缺乏多样性和过矫正问题。虽然在图像描述任务中引入强化学习算法能够部分解决曝光偏差和标签偏差的问题,但这类算法通常采用“自动评价指标”(如Bleu、Meteor、CIDEr和Rouge)作为奖励值;由于这些指标并不完全与人类专家的评价标准成正相关,进而造成模型虽然强化了指标但并没有提升描述语句质量的现象。本文提出一种带有混合注意力机制的对抗逆强化学习图像描述框架,该框架通过两种设计:混合注意力机制和对抗逆强化学习方法提升模型表现,主要贡献包括:(1)混合注意力机制由视觉自注意力机制和软注意力机制组成,前者用于关注图像中的主要对象,后者用于表征所有被检测出来的目标之间的相互关系,这种设计避免了注意力机制对某个主要对象的过度关注问题,最后将两种注意力机制的输出拼接作为后续模块的输入。(2)在对抗逆强化学习框架中模型自学习的奖励同时由图像特征和语句特征映射得到,“评价指标”类奖励仅由语句自身的n-gram匹配度决定,前者能确保语句与图像的对应。(3)在训练阶段,文章将生成语句和参考语句均映射为玻尔兹曼分布,再通过对抗生成网络训练生成器,用以解决曝光偏差、标签偏差及过矫正问题,同时增加语句的多样性。最后,在Microsoft COCO数据集上进行的实验结果表明,本文提出的算法在定性和定量上较当前一些算法有一定的优势。
其他文献
行人再识别是计算机视觉领域的一个重要研究分支,其技术被广泛应用于城市交通管理、公共安防、刑事侦查等需要智能视频监控的领域。行人再识别的主要任务是解决视角不重叠的
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是利用传感器进行自动定位并实时构建地图的技术。传统SLAM算法多用于PC端。仅基于视觉的SLAM算法受环
由于群速度色散和自相位调制之间的相互平衡,光孤子可以在光纤中长距离传输且形状不发生改变,因为这一特性,孤子可以在光纤通信系统中实现远距离和大容量传输,并可以应用在很
新时代的教育教学改革提倡自主探索、合作的学习方式,协作学习作为一种典型群体知识建构方式备受诸多学者关注。当前研究者较多关注计算机支持的在线协作学习,但无论在线学习
随着信息化时代的快速发展以及互联网技术的不断提升,导致许多行业产生的数据样本呈指数级别增长,数据维度也在不断攀升。受“数据爆炸”、“维度灾难”的影响,传统的聚类算
随着全球范围内单倍体造血干细胞移植(Haploidentical stem cell transplantation,Haplo-SCT)技术的成熟和数量的增加,寻找Haplo-SCT的最佳供者已经成为临床医生需要解决的至关重要的问题。目前Haplo-SCT供者选择的原则并不明确。我们回顾性研究了我们单中心连续8年的基于低剂量抗胸腺细胞球蛋白(anti-T-lymphocyte globulin,
遥感影像中的云图检测对遥感影像的后续应用具有重要意义。目前,遥感卫星影像在农业生产、天气预报、自然灾害预测、军事科技、地理测绘、变化检测、水利交通等领域应用得越
超冷里德堡原子由于其独特的物理性质被应用于越来越多的物理实验研究中。经过30多年的发展,冷原子为许多基础理论的研究提供了理想的实验平台,如玻色爱因斯坦凝聚的基本性质
Majorana费米子的反粒子是其自身,它满足Non-Abelian(非阿贝尔)统计,是容错拓扑量子计算的有效候选之一。自Majorana费米子被提出以来,对它的寻找从未停止。最近人们发现在拓扑
改革开放以来中国经济快速增长的同时,区域经济发展不平衡问题也日益突出。尤其是区域经济发展分化态势加剧、增长动力极化现象日益突出。区域经济发展的空间格局正在发生深