论文部分内容阅读
随着互联网的发展,多媒体数据不断增长。对大规模多媒体数据进行分类是一项极具挑战性的任务,重要原因之一是多媒体数据可以同时属于多个类别。在多媒体数据中,图像占有很大的比重,因此,多标签图像分类受到越来越多的重视。在多标签图像分类中,图像可以有多个类别标签。现有的多标签图像分类方法主要存在两个问题:第一个问题是没有考虑图像中上下文关联关系,而利用类别标签之间的关系可以提升分类性能;第二个问题是忽略了图像中的空间信息,导致类别标签与图像区域产生错误关联的问题。为了解决这些问题,本文提出了三种多标签图像分类方法。本文的主要研究内容如下:首先,针对忽略图像中的空间信息问题,本文提出一种基于注意力机制的多标签图像分类模型。该模型使用Res Net提取特征,并使用CNN为每一个类别标签生成对应的注意力图,然后使用注意力图对特征图进行加权,最后使用加权特征图进行分类。实验结果表明,模型能主动关注类别标签对应图像区域,进而增强分类效果。其次,为了更好的利用标签之间的关系,本文提出一种基于STN和LSTM的多标签图像分类模型。所提出的模型使用VGG提取特征,然后使用STN实现注意力机制,最后使用LSTM获取标签之间的关系并进行分类。实验结果表明,模型能有效的在特征图上寻找目标区域,进而提升分类性能。最后,尽管LSTM能获得标签之间的关系,但获得的是一种局部关系。为了充分利用标签之间的关系,本文提出了一种基于GCN和注意力机制的多标签图像分类模型。该模型使用Res Net提取特征,同时使用注意力机制来获得加权特征,然后将两个特征进行加权融合。GCN可以学习标签之间的全局关系并利用融合后的特征进行分类。实验结果表明,GCN和注意力机制能有效提升分类表现,与最近的方法相比,有很强的竞争力。基于以上工作,本文设计并实现了一个多标签图像分类系统,系统能够实现图像标注、图像检索和相似图像查找的功能。