论文部分内容阅读
自动生成图像描述连接了计算机视觉和自然语言处理两个领域,一直以来,都是图像理解、人工智能的长远目标。它不仅需要更深层的理解图像语义,还需要合理的生成自然语言来表达。近些年来,随着计算能力的提升、数据资源的丰富、深度学习的发展,该任务已经取得了巨大的进步,但仍然面临着许多未解决的问题和挑战。 本文全面研究了自动生成图像描述的相关问题,首先,说明了视觉和语言两个领域的相关技术,如深度学习、语言理解、多模态学习等。其次,详细的介绍了解决该任务的极具代表性的方法。再者,在基线模型的基础上,从两个不同的角度,对模型做了改进:第一,开发了一个深度双向门限循环单元图像描述模型,试图在解码阶段,全面挖掘文本描述更深层次的语义;第二,提出了双向引导图像描述生成模型,在图像编码阶段,加入文本信息引导图像过滤。在文本解码阶段,加入图像属性信息引导语言生成,使得模型能够更全面挖掘图像和文本的关键信息,削弱信息转换的不平衡影响。 最后,在公共评测集MSCOCO上,评估了改进的模型的性能,本文提出的方法无论使用通用的评价指标BLEU、METEOR等,还是使用其他人工评价指标,都比目前已有的相关工作有着较为显著的提高,有力验证了模型的有效性。