论文部分内容阅读
随着计算机视觉及多媒体技术的发展,越来越多的人选择以图像的方式来传达或表示信息,而图像在传达信息的时候比纯文本的描述更加直观生动,也更让人印象深刻。面对数以万计的图像信息,如何高效的对其进行标记分类、有效检索,成为图像检索领域一个亟需解决的问题。作为基于内容检索的核心技术,图像自动标注技术减少了人工干预,降低了人力成本,为图像检索和管理提供了极大的便利。随着深度学习的发展,人们使用卷积神经网络进行图像特征的提取,利用循环神经网络进行文本自然语言的处理,并将两者结合用来实现图像的语义标注,但是目前图像标注的效果仍然难以达到理想的程度,存在语义鸿沟现象。针对现有图像自动标注算法存在的问题,同时考虑人类能对图像进行准确而生动描述的原因,论文在斯坦福大学Neuraltalk的基础上,提出了一种融合语料信息的图像自动标注算法。该算法包含四个部分:第一部分是图像与语义对齐模型,第二部分是词向量训练模型,第三部分是语料融合模型,第四部分是Corpus-MRNN图像自动描述生成模型。算法通过词向量训练模型将语料库训练成词向量形式,并通过语料融合模型提取语料信息中与训练集关键词语义相似度高的词语对训练集进行扩充,从而达到利用人类语言知识丰富训练集,提高图像自动标注准确度,减小语义鸿沟的目的。同时为了在语料训练过程中最大化的保留词向量的语义信息,论文在word2vec现有模型的基础上提出了包含词序信息的Sequence词向量训练模型,该模型通过改变训练时数据的输入形式,最大化的保留语料库的词序信息,从而达到提高词向量性能的目的。最后,为了验证论文提出算法的有效性,论文以BLEU及METEOR作为评价标准,将融合CBOW模型训练的词向量的图像自动标注算法与Neuraltalk进行横向对比实验,同时与融合Sequence词序模型训练的词向量的图像自动标注算法进行纵向对比实验,实验结果证明,融合语料信息的图像自动标注算法能在一定程度上提高图像描述的准确度,减少语义鸿沟,具有可行性。