论文部分内容阅读
伴随着互联网的发展和社交网络的成熟,图像信息以前所未有的规模进行传播。自动图像标注是目前实现高效地管理和检索海量图像数据的重要技术之一。本文研究自动图像标注方法中词袋模型主题语义表达、数据集标签完善和标注中的视觉近邻与语义近邻的问题。主要工作如下:1、针对词袋模型视觉单词表不表征图像主题,造成语义丢失的不足,构造了一个新的主题嵌入视觉单词表。以图像主题作为伴随信息,将纹理元特征以主题-子主题-分层特征树的方式组织,从而在词袋模型的直方图中通过语义聚集嵌入了主题信息。其中对训练集主题交错和未标主题的情况,利用标签词频分解向量法对训练集进行主题伴随信息生成。实验表明在主题模型的图像标注算法上,所提出的主题嵌入词袋模型比PLSA-Words算法原文中的词袋模型平均查准率提高9.8%,平均查全率高7.9%,调和平均数高9.2%。主题嵌入词袋模型不仅能够表达出图像的纹理元特征,而且含有图像的主题信息,有效改善了词袋模型表示图像特征和语义有效性。2、FastTag标注算法的标签补全模块使用的是布尔型特征代表标签的“有/无”,并未考虑同一图像标签之间的语义重叠程度,标签语义相关特性也并非二值变量。本文提出了基于词频分解向量的改进FastTag标注算法,用标签词频分解向量的取值连续化方法代表标签,使标签语义之间的重叠比例合理的量化,提出新的联合损失函数寻优方法,用于训练标签补全分类器和标签预测分类器。实验表明改进的FastTag算法比FastTag算法平均查准率高1%,标注出标签种类个数提升了1个,在训练集图像标签个数少的情况下标注结果要好。表明改进的FastTag算法能够对图像标签进行有效地扩充。3、针对FastTag标注算法对部分图像标注准确率低的问题,提出了结合标签与特征的图像最近邻选取的图像标注。鉴于视觉特征选择的近邻图像不一定为语义近邻,提出了结合特征与标签的双模态图像最近邻选择方法。标签词频分解向量作为图像文本模态加入近邻图像查询,使最近邻图像集含有相似的标签。利用每一幅图像的近邻图像集作为FastTag算法的训练集,量身定做FastTag算法,提高每一幅图像的标注效果,从而提高总体的标注效果。实验表明在图像近邻下的FastTag算法比FastTag算法的平均查准率高2.7%,平均查全率高1%,调和平均数高1.8%。表明双模态的图像近邻选择的图像语义上更加相似且图像近邻下的FastTag算法提升标注准确率低的图像的标注效果。