论文部分内容阅读
图像自动标注技术在图像检索领域发挥着越来越重要的作用,逐渐成为计算机视觉的研究热点。数字可视化技术的进步和发展使得大量的图像可以在网络上获取,用户可以根据自己的喜好从存储库中检索这些图像,然而这些图像大多数都没有描述信息。图像标注的传统做法是由人类来完成的,这是一种费时费力的标注方法,也是一种过于主观的标注方法。另一个难点是解决低层视觉特征(颜色、形状和纹理)与用于解释图像的高层语义特征之间的语义鸿沟问题。大多数图像检索方法是基于内容的图像检索(CBIR)和基于标签的图像检索(TBIR)方法。CBIR通过提取图像本身的颜色、纹理和形状等特征,在低层特征上进行工作,但由于语义鸿沟,一般用户无法使用它。TBIR的工作原理是根据文本查询和图像的手工标注之间的匹配来查找相关图像。但是它高度依赖于标签的可用性和质量。然而,手动标注的标记是主观的、模糊的、有限且带噪声的。近年来,该领域的研究已经通过图像自动标注的方法(AIA),将低层图像特征与高层语义之间的语义鸿沟联系起来。自动图像标注算法假设采集的图像样本具有语义标记和低层特征表示。该标注方法使用机器学习算法,然后可以训练它使用低层特征进行语义标签匹配。图像自动标注算法与多个标签相关联,图像标注是一个典型的多标记分类问题,因此,基于多标记学习的图像标注算法因其对图像赋予多个标签的良好语义表示而引起了人们的极大兴趣,并且与其他机器学习方法相比具有良好的可扩展性。多标记学习(MLL)用来处理具有多个标签的图像示例。尽管多标记学习有其重要意义,但它也有其局限性。其中一些限制包括:训练图像可能只被标注了部分的标签,标签可能是带噪声的或损坏的,由于它的不可用性和手工标记的质量,标注图像数量有限。因此,本文研究的目的是提高标注算法的性能,以解决上述局限性。对于图像自动标注算法的应用,大多数研究都能有效地利用不同的机器学习技术来挖掘不同标签之间的语义相关性。然而,大多数的研究在处理标签噪声或标签缺失方面还不够鲁棒,而且与大量未标记图像相比,标记图像的数量也是有限的。在本研究中,为了解除这些局限性,提出了一种新的多标记学习预测模型——基于三重低秩正则化的鲁棒半监督多标记学习算法,该模型有助于提高标注的性能。具体而言,该模型首先采用低秩表示(LRR)的优势,提前在图像的特征空间构建低秩约束系数矩阵Z。然后利用标签系数矩阵建立一个线性自相关模型,利用标签相关性来恢复可能存在噪声的标签矩阵。引入特征映射矩阵和自恢复系数矩阵的矩阵迹范数正则项来获取标签之间的相关性,并控制模型的复杂性。此外,利用基于图拉普拉斯流形正则项作为平滑算子,将未标记图像加入到训练图像中,并能显式地考虑标记图像和未标记图像的几何结构。利用LRR在特征空间图像中提前计算出的系数矩阵Z,计算出图像间的相似性,获取图像间的几何结构。为了保证模型的有效性,在五组广泛使用的图像数据集上进行了实验研究。其中,数据集Core15K共有4999幅图像,标签数为260个。ESPGame图像数据集是从在线游戏中采集的2万幅图像,标签数为268个。Iaprtc-12图像数据集包含19627幅包含多种语言描述的图像,包括291个标签。PASCAL VOC 2007图像数据集有9963张图像。从758名使用亚马逊机械Turk的员工中收集到的,总标签数为399个。NUS-WIDE图像数据集包含新加坡国立大学媒体搜索实验室收集的31570张图片,总标签数为430个。Core15K、ESPGAME和IAPRTC-12图像数据集的预处理步骤是使用SIFT算法进行特征提取来表示图像的视觉内容。对于PASCAL VOC 2007图像数据集,我们提取了三种类型的图像特征:GIST,颜色直方图和文字包直方图。对于NUS-WIDE的图像数据集,每幅图像都使用了三种类型的低层视觉特征,包括颜色信息、小波纹理和边缘分布。然后,经过预处理,对数据进行归一化处理,以提高数据分析的准确性和效率。因此,本研究适应了图像标准化类型。这些方法保证了数据中每个特征的值都具有零均值。由于本研究的目的是提高图像自动标注的性能,因此所使用的评价指标是平均准确率(AP@K)和平均召回率(AR@K)。这两个指标都将自动标注的图像标记与手动的标记进行比较。在建立评价指标评价新模型的有效性时,进行了三个实验。第一个实验的目的是评估在图像数据集上预测模型的性能。实验首先随机抽取数据集50%的数据作为训练数据的总数据X,其中分别选择20%的图像作为标记数据和80%的未标记数据。其余50%的数据集用于测试数据。每个实验在训练和测试的不同阶段中重复5次,并在选取的K个标签上将平均准确率和平均召回率结果与选定的五个最新多标记学习算法进行比较。详细的实验结果显示平均准确率和平均召回率为第一。所提出的方法优于其他所有比较方法。具体而言,随着返回标签数量的增加,平均查准率下降,而平均召回率有所提高。第二个实验使用不完全训练标签来评估该方法的性能,选择PASCAL VOC 2007和NUS-WIDE的图像数据集来检验所提出的模型对于最大缺失标签数分别为35和114的数据集的标记性能。从每个数据集中选取10%的数据集作为训练集,人工删除部分标记以验证模型对缺失标签的敏感性和鲁棒性。通过将10%的数据集分割成缺失20%、40%和60%的标记的数据集,并以平均准确率的平均结果为依据,完成了验证工作。当观察标记数从60%减少到20%时,该方法的观察百分比仅下降2.03%,而其他五种比较方法的降低率为4%至8%。结果表明,该方法对缺失标签的多标记学习具有更好的效果。该模型具有四个关键的参数α、β、η和λ,实验三对这些参数的敏感性进行了评估,验证了这些参数对模型性能的影响。为了评估灵敏度,选择ESPGame图像数据集用于实验,其中20%的数据集用于训练,而其余的80%用于测试。首先初始化λ为0.1,然后使用固定两个参数,修改一个参数的策略,参数的值分别从{0.001,0.01,0.1,1,10}中改变。通过对比平均准确率的结果,并考虑到模型性能达到最优时的参数情况,可以得出,当α=0.0 1,β=1,λ=0.1和η=0.0 1时,算法的性能达到最高。综上所述,本文提出了一种应用于图像自动标注的基于三重低秩正则化的鲁棒半监督多标记学习算法,并验证了该算法可以提高图像自动标注算法的性能。通过改进机器学习算法,解决了现有MLL算法的局限性。该算法在特征映射和标签空间中利用了标签相关性。引入迹范数正则项来获取不同标签之间的相关性,控制了模型复杂度。通过建立线性自恢复低秩模型,消除标记噪声,恢复缺失标签。为了考虑大量未标记图像,引入图拉普拉斯正则项,在特征空间上利用低秩表示的优势,构造低秩约束系数矩阵从而在已标记和未标记样本上获取样本空间的整体结构。实验结果表明,在训练样本不足和图像标记缺失的情况下,提出的模型仍能获得较好的效果。