论文部分内容阅读
图像自动标注就是一种将图片内容映射为对应的自然语言描述的技术,具有重要应用价值。比如,可帮助视力缺陷者更好地理解周围的环境从而替代导盲犬的工作以及可以帮助幼儿看图识字等等。当前对图像标注的研究大多数是基于Encoder-Decoder框架,它通常涉及两个关键点:一个是图像特征的提取,另一个就是提取的视觉特征解码,生成对应语句描述。本文研究并对经典模型进行了改进,主要工作包括:(1)针对当前存在的注意力机制在图像区域权重分配策略不当、图像特征存在过多冗余信息的问题,本文提出了一种基于Faster R-CNN框架的改进方法来提取图像的目标区域特征。对比实验证实,此方法提取到的带属性描述的目标区域特征对标注的生成性能有很大提升。(2)传统Attention机制没有考虑Q和K或者V是否相关,如果不相关可能会对模型的生成结果产生误导。为了解决该问题,本文提出了一种修正的Attention策略,并基于Transformer架构,提出了一种基于Multi-Head Attention的优化框架。提出的这种优化框架能够成功修正传统Attention机制的不足,改善模型在图像标注评价指标上的表现。(3)目前的标注模型很少考虑注意力本身潜在的连贯性。针对此情况,本文在两层Up-Down模型上进行改进,提出了一种基于注意力连贯性机制的CA-LSTM图像标注模型。实验表明,本文提出的这种新模型比传统Up-Down能更快、更准确地生成句子描述。它充分挖掘了注意力潜在的连贯性,因此在进行推断时可以显著减小曝光偏差等问题。