论文部分内容阅读
随着Alex Krizhevsky在2012年ImageNet竞赛中提出深度卷积神经网络模型AlexNet并获得当年冠军,人工智能(Artificial Intelligence,AI)再次掀起了一股研究热潮。作为人工智能的重要分支之一,计算机视觉(Computer Vision,CV)也随着深度学习模型的建立而蓬勃发展。现代科技生活带来了各种各样的图像,这些图像大多没有具体的语言描述,人类可以很容易理解它们,但机器很难完整地描述图像内容。图像语义描述(Image Captioning)的功能是输入图像,并将有关图像的所有自然语言描述输出,这是一项结合了计算机视觉和自然语言处理(Natural Language Processing,NLP)的任务。对比传统目标识别与检测方式,该任务面临的挑战更大,这是由于算法除要实现目标检测之外,还要对各目标间的关系进行分析,再通过自然语言加以描述。迄今为止,图像语义描述任务仍存在许多问题:(1)卷积神经网络(Convolutional Neural Networks,CNN)是计算机视觉中的主要图像特征提取方法,但它不能获得图像对象之间的关系以及它们之间的层次交互;(2)循环神经网络(Recurrent Neural Networks,RNN)及其扩展(LSTM、GRU等)已经成为当前流行且有效的跨域序列数据建模框架。在图像语义描述任务中,由单层循环神经网络生成的图像描述的语句过于简单,在生成过程中没有推理;(3)图像的属性之间的联系太少,导致生成图像描述的语句没有突出图像的更具体的关键表达。为此,我们做了以下工作:(1)提出了一种基于图卷积网络(Graph Convolutional Networks,GCN)的图像语义描述算法。该算法将图像内各个层次与对应边界框视觉信息间的层次交互现象也考虑在内。在编码器(Encoder)端利用图卷积网络提取图像的特征信息,然后将提取的信息输入到解码器(Decoder)输出图像语义描述。本模型应用于实验取得了显著效果。(2)集束搜索(Beam Search)是一种应用于单向神经网络模型解码序列的近似推理算法。由于生成的图像描述的语句过于简单,不能突出图像的重点,我们采用集束搜索算法结合注意力机制来生成图像描述语句。实验证明,该方法使得图像描述生成过程中具有一定的推理性。(3)针对传统图像语义描述任务输出的图像描述不具体描述图像内容、生成的语句描述不完整、语句单一的事实,利用生成式对抗网络的思想生成图像描述,使得生成的图像描述语句更加灵活。实验证明了该方法的有效性。