论文部分内容阅读
在图像字幕生成任务中,注意力机制处理图像特征时会忽视图像中目标之间联系程度,从而影响到字幕生成质量。针对这一问题,在传统的多头注意力机制的基础上,引入注意力机制优化模块(Optimize Attention,OA)来测量图像中目标之间的关联程度,以引导字幕的产生过程。OA结合多头注意力机制的关注结果和当前上下文(即查询)生成"信息向量"和"注意门",然后将"注意门"应用于"信息向量"来构造一个新的注意力,并将新的注意力再与"信息向量"进行逐元素相乘以生成图像中目标和背景之间关联程度高的关注信息。在M