论文部分内容阅读
多标签图像分类任务就是将自然图像中包含的多种物体类型都进行正确的识别。图像分类不仅是计算机视觉领域的基础之一,也在实际生活方面有着广泛的应用价值。但多标签图像一般含有较多的目标,并且存在目标之间有遮挡以及目标尺寸大小相差较大以及构成图像内容复杂等问题,对其实现准确的分类是一个具有挑战的任务。而视觉和语言是人类解决现实问题的两个核心部分,因此人工智能对两个领域分别进行了大量的研究。近年来,由于深度学习的在各自领域的巨大进步使得视觉和语言之间的界限被打破,使得跨模态融合成为了当下研究的热点问题。而众多研究表明通过加入更多模态的网络模型,往往比单模态算法的性能更好。在多模态融合的框架下,如何有效的让文本信息辅助图像进行多标签分类就成了问题的关键。本文提出一个全新的短视频封面数据集,其包含多标签图像以及图像附带的标题文本信息。通过该数据集验证结合视觉注意力机制和多模态融合的图像多标签分类算法的有效性,主要的贡献如下:1)本文对现有的图像注意力机制进行改进,引入了立体注意力机制。现有的注意力机制大都集中在特征图像的空间特征,而忽略通道方向的信息。我们通过结合空间注意力机制和通道注意力机制,充分的考虑到了空间位置和通道位置的特征。其中空间注意力机制作用在网络的较低层,可以在分辨率较高的特征图上更加关注细节信息。而通道注意力机制可以被认为是对属性的选择。并且通过实验表明在两个数据集上有不错的效果。2)本文通过层级多标签分类算法来建立标签子类与父类之间的关系,来辅助模型得到图像所有的标签。算法可以同时优化局部和全局损失函数,以从整个类层次结构中发现局部层次的类关系和全局信息,同时惩罚层次结构的错误分类。通过实验结果分析,我们所提出的算法可以建立标签之间隐含的联系性。3)本文将标题文本信息引入到图像多标签分类算法中。利用文本信息和图像之间隐藏的关联性,对其进行多模态融合,让图像特征更加关注文本信息注意的区域,辅助图像进行分类。文本信息首先经过自注意力机制增强对句子中关键词的聚焦,然后经过双线性注意力机制网络对文本特征和图像特征进行融合,并且为防止文本的噪声信息将输出特征向量与图像特征向量进行连接进行多标签分类。最后通过大量的实验验证本文提出的方法具有其有效性。