论文部分内容阅读
传统的图像描述模型通常基于使用卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)的编码器-解码器结构,面临着遗失大量图像细节信息以及训练时间成本过高的问题.提出了一个新颖的模型,该模型包含紧凑的双线性编码器(Compact Bilinear Encoder)和紧凑的多模态解码器(Compact Multi-modal Decoder),可通过细粒度的区域目标实体特征来改善图像描述.在编码器中,