论文部分内容阅读
随着互联网技术的蓬勃发展以及智能手机等具有拍照功能的设备的普及,图像资源呈爆炸式增长,亟需高效的图像检索技术。自动图像标注是图像检索中的关键技术,它基于图像的视觉特征,给图像添加反映其内容的语义标签。互联网图像资源数据海量且样本质量参差不齐,为了实现对图像的高效标注以及处理样本标签失衡问题,本文研究图像标注中的标签迁移算法,着重针对最近邻标注模型中的标签传播和标签均衡问题展开研究。主要工作包括:1、提出了一个视觉-语义分布式词向量生成方法。图像标注中,标签的分布式词向量无法表达标签间的视觉相关性,导致图像的分布式词向量视觉相似和词向量相近不一致。本文将图像的视觉类别信息融入分布式语义词向量,得到图像标签的视觉-语义词向量,在最近邻图像集中根据图像在视觉-语义词向量空间的距离进行标签迁移。同时,针对原始数据库标签失衡的问题,提出一种联合语义和视觉信息的最近邻图像选择方案,使得选出的最近邻图像集中每个标签出现的频率分布均衡。在Corel5K数据库中的实验结果表明,与目前最近邻图像标注中表现最好的算法之一的2PKNN方法相比,本文基于视觉-语义分布式词向量的图像标注方法虽然平均查准率降低了5.9%,标签召回数减少了10个,但其平均查全率和平均数分别提升了4.2%和1.3%。2、提出一种图像非负矩阵分解的多视角一致处理方法。基于非负矩阵分解与概率潜在语义分析的一致性,对图像非负矩阵分解中的多个视觉视角和语义视觉进行一致性聚类。利用该聚类一致性,在最近邻图像集中将图像的视觉特征和标签特征联系起来进行标签传播,解决了标签传播中图像的视觉和语义的潜在关系未能得到充分挖掘的问题。同时,基于测度学习提出一个更合理选择最近邻图像的方案。针对原始数据库的标签缺失问题,提出一个基于标签上下文相关性的标签自扩展算法对标签进行扩展。在Corel5K数据库的实验中,与目前最近邻图像标注中表现最好的算法之一的2pKNN算法对比,本文基于多视角非负矩阵分解的图像标注方法虽然平均查准率降低了1.3%,标签召回数少了8个,但其平均查全率和平均数分别提升了5.2%和1.6%。