论文部分内容阅读
如今,数字图像的数量呈爆炸式增长,海量数据的管理需要一个有效的浏览、分类和搜索系统。自动图像标注技术用于为图像分配标签以获得更准确的检索、分类结果;图像表示通常有多种,融合不同的特征能够提供更好的表征能力,提高图像标注、分类算法的效果。本文就是对自动图像标注算法以及多视角特征学习进行研究。现存常见图像标注方法可以分为两类:基于搜索数据库的方法和基于模型学习的方法。基于搜索数据库的方法利用数据库中已标注的图像直接提供标签候选序列,具有简单、有效的特点,近些年得到广泛应用。然而此类方法一方面忽略标签之间的共现关系,导致了较低的准确率,另一方面在大数据集中此类算法是低效的。基于模型学习的方法中,自动图像标注问题可以看作多类别分类问题或者针对每个标签的二分类问题。此类方法大都没有考虑标签之间潜在的场景信息,当数据集标签数量巨大时,则意味着巨大的分类输出空间,从而导致此类方法不再适合。针对在图像标注问题中没有考虑标签与语义场景间的映射关系以及存在的标签硬分类问题,本文基于非负矩阵分解提出了一种标签的语义场景划分方法,实现了标签与语义场景间的概率映射。继而利用场景分类找到样本语义相关的场景,最后在样本语义相关的场景中利用KNN-based算法完成图像标注。实验表明,本算法不仅提高了算法效率,同时提高了标注效果。由于不同特征对不同的语义概念有不同的表征能力,所以图像分类、标注算法通常都基于多种不同底层特征。多视角特征的引入在提高了算法效率的同时,也增加了算法需要处理的特征维度,影响了算法效率、降低了算法可用性。现存多特征融合、降维算法通常属于无监督学习方式,没有利用到数据集中已存的标签信息,因而导致了新特征不能有效得蕴含样本之间的语义关系。针对上述问题以及图像标注问题中样本含有多个标签的特性,本文提出了基于多视角特征和图嵌入的半监督图像标注算法。首先,该算法通过建立新的基于图嵌入的多视角NMF算法模型,对多视角特征进行融合、降维,然后通过KNN-based算法利用新的特征实现图像标注。实验表明,该算法在保证标注效果的同时提高了算法效率。