论文部分内容阅读
使用文本句子自动地描述图像已经成为了近年来的一个研究热点,尤其是深度学习研究的深入,大大推动了图像描述文本自动生成研究的发展。其中使用最多的技术是长短期记忆网络(LSTM),其不但能够有效的记忆长期和短期信息,而且还能够解决梯度消失和梯度爆炸问题。虽然目前的相关研究在图像描述自动生成领域取得了不错的成果,但是仍有一些不足之处需要改进:?训练过程,如何根据图像描述进行双向的学习训练,充分地学习图像描述的上下文信息。?取样过程中,如何避免单纯的把上一个时刻的预测值作为当前时刻的输入值,减小累积误差,避免导致最终错误的取样结果。?如何选取更好的训练模型生成高质量的文本描述。针对图像描述自动生成领域中存在的问题,本文提出了一种基于计划取样的双向长短期记忆网络的图像描述自动生成方法(BLSTM-S)。主要内容为:?提出了一种双向的长短期记忆网络。正如本文知道的,在英语句子的选词填空中,空格处单词的确定不但与句子的上文信息有关,而且与句子的下文信息也有一定的关系。因此,双向的长短期记忆网络与单向的长短期记忆网络相比,不但能够学习图像描述的上文信息而且还能够学习图像描述的下文信息,从而能够更准确地生成图像的文本描述信息。?采用了一种基于计划取样的方法来取样单词。与之前单纯地以上一个时刻的输出值作为当前时刻的输入值的取样方法相比,计划取样过程中本文使用一种抛硬币的策略,随机决定是以概率?使用上一个时刻的输出值作为当前时刻的输入值,或以概率(1-?)使用上一个时刻的真实值作为当前时刻的输入值。能够解决训练过程和取样过程的不一致性,从而避免累积错误决策的出现。?本文利用集束搜索技术在每个时刻点选取K个候选项中概率最大的项作为输出值,可以产生更准确的描写信息。最后,为验证BLSTM-S模型的有效性和准确性,本文在Flickr8k数据集、Flickr30k数据集以及MSCOCO数据集上进行了大量的实验,实验结果表明BLSTM模型在Flickr8k、Flickr30k和MSCOCO数据集上的表现明显好于其他模型。