论文部分内容阅读
随着深度学习技术的兴起,自然语言处理与计算机视觉领域呈现相结合的趋势。作为融合视觉和语言的多模态研究任务,图像的文本描述可应用于基于文本内容的图像检索、网络图像分析等众多场景中,从而受到了研究界和企业界的广泛关注。图像的文本描述方法可归纳为三大类:基于生成的方法、基于检索的方法和基于编码—解码的方法。该文详细介绍了这三类方法各自具有代表性的工作,并进一步分析了各方法的优劣;然后对图像文本描述方法的相关数据集、评测标准和主要开源工具包进行了阐述;最后,分析了图像的文本描述中需要解决的关键技术问题。