论文部分内容阅读
传统图像分类技术需要在模型训练阶段给出带标签的图像数据。但是,随着图像数据的急速增长,为每个类别的图像都提供已标注的训练样本是一件非常困难的事情。为此,学术界提出了能够为在训练集中没有出现过的类别图像进行分类的零样本图像分类方法。针对零样本图像分类方法,本文从语义特征空间构建和映射后特征之间的距离度量两个角度进行了较为深入地研究分析。零样本图像分类方法需要使用额外的辅助信息作为桥梁,将已见过的类别和未见过的类别相联系,从而将在已见过的类别中学习得到的知识用于未见过的类别。现有方法大多使用语义特征完成这一任务,如类别名称对应的文本特征,或从类别对象中抽象出来的属性特征;然后将图像的视觉特征映射至语义特征空间,或者将视觉特征和语义特征映射至公共特征空间;最后,未见过的类别可以通过在已见过的类别中学习得到的图像特征与语义特征之间的映射关系,将自身的图像特征与待预测类别的语义特征相联系,从而实现分类。针对目前较少工作考虑了多种模态的语义特征联合应用的情况,本文采用公共特征空间的思想,对组间因子分析方法进行改进,提出一种多组间因子分析方法(Multi-Battery Factor Analysis,MBFA),将图像特征和多个模态的语义特征映射至一个公共特征空间。和传统的语义特征空间构造方法相比,本方法能够充分利用多种模态的语义特征所包含的信息,从而提高分类准确率。在常见的零样本图像分类数据集上的实验结果证明了所提MBFA-ZSL方法的有效性。在语义特征空间中,合理的距离度量方式能够准确地反映出各个模态特征之间的关系,从而有助于提高分类性能。因此,本文对语义特征空间中映射后视觉特征和语义特征之间的距离度量方式进行了研究。现有的零样本图像分类方法通常使用传统的欧氏距离进行度量,它假设样本特征的各个维度都同等重要,这往往不能有效地描述样本间的关系。基于此,本文将距离度量学习(Distance Metric Learning,DML)引入零样本图像分类,从而更好的描述图像特征和语义特征之间的距离。本文将所提的CCA-DML算法在AwA和CUB两个数据集上进行了性能测试和分析,通过与使用传统欧式距离的CCA-Euc算法的比较,可以看出距离度量学习能够有效地描述公共特征空间中图像特征与语义特征的距离关系,从而提高分类性能。通过与当前主流方法的性能比较,可以看出所提的CCA-DML算法能够取得更好的分类结果。