论文部分内容阅读
随着计算机网络的迅速发展,我们可以获得巨大的图像资源,同时也面临着计算机视觉研究的巨大挑战,即如何找到有效的方法来自动标注图像,减少手工标注所消耗的人力资源和人为倾向性,并且提高检索图像的准确率。图像的语义理解是解决这类问题的关键。近年来很多学者将广泛用于自然语言处理的潜在狄利克雷分布模型(LDA)引入图像对象识别中,该模型便于图像的语义理解,但是也存在弊端:它假设每个词汇所对应的主题是条件独立产生的。根据图像本身的特性,图像的空间信息对图像物体识别有重要作用,视觉词汇所对应主题的生成与其相邻区域主题的产生有一定的依赖关系,所以本文提出融合空间信息LDA模型用于图像视觉词汇主题的产生过程,并使用SVM分类器对得到的每幅图像所对应的主题分布比例进行分类,从而完成图像对象识别。首先,对图像提取特征。本文使用了两种图像特征:SIFT特征、HOG特征。将提取的SIFT特征与HOG特征分别使用online-Kmeans算法聚类。最后将每幅图像的特征表示成聚类得到视觉词汇表索引号形式。其次,设计融合空间信息LDA模型,即将条件随机场(CRF)融合进LDA模型中。在隐含层引入条件随机场,使得每个视觉词汇所对应主题的产生依赖于其相邻视觉词汇的主题。针对该模型提出需要优化的目标函数,使用EM算法和变分推理算法对模型的参数进行估计。此外还对原LDA模型使用Gibbs采样算法估计模型参数。最后,使用训练好的模型对测试图像进行测试,得到每幅图像中视觉词汇所对应的主题分配,同时也得到每幅图像的主题分布比例。将图像所对应的主题分布比例向量作为图像的特征,使用SVM分类器对不同类别的图像进行分类。本文采用Visual object classes (VOC)算法挑战赛的训练图像和测试图像进行实验。实验表明,融合空间信息LDA模型能有效的融合图像空间信息,与原LDA模型相比提高了图像对象的识别率。