论文部分内容阅读
图像分类是计算机视觉领域重要的研究方向。随着图像的爆炸式增长,图像识别面临巨大的挑战。近年来以统计模型为主的图像分类方法不断出现,其中,概率统计模型受到研究者广泛关注。该模型能够构建特征之间的相互关系,并挖掘图像的抽象特征,由于抽象特征能够弥补类别标签和底层特征之间的语义鸿沟,该模型能在图像分类的任务上取得更精确的结果。概率统计模型有两个重要的分支:图模型和深度神经网络。前者能够学习图像中潜在的中层语义,而后者通过端到端的网络自动学习具备判别力的特征。然而网络上不断出现背景复杂的图像,同时图像所属类别的粒度更精细,这些细粒度类别的图像之间享有极大的外观相似性。研究有效的概率统计模型来提取更具判别力特征并提升图像分类精度是计算机视觉工业应用的迫切需求。针对这些问题,本文开展了基于概率统计模型的图像分类方法的研究。本文首先探究了位置信息和类别共享性对粗粒度图像分类的影响,随后,针对细粒度目标如何排除背景干扰以及提取姿态鲁棒特征等核心问题进行了探讨,同时分析了文本中层特征对细粒度图像分类的影响。具体的研究内容和创新点包括以下五个方面:第一,针对基于视觉单词直方图的图模型没有考虑空间特征的问题,提出了空间位置概率图模型。该模型将图像分为多个网格区域,并根据位置、颜色、纹理等底层特征为每个区域赋予一个潜在主题。同时,本文构建了监督的局部空间约束图模型来学习类特定的潜在主题,采用变分推导的方法优化模型参数,并通过最大后验概率算法预测图像类别标签。第二,针对位置信息无法准确区分位置变化的同一类别的问题,进行了基于类共享概率统计模型的图像分类研究。该模型学习局部类别共享和局部类别特有潜在主题。类别共享特征的学习增强了类别特有主题的判别力。本文包含两个步骤,首先基于图像的视觉单词直方图推导类特有和类共享主题的分布,随后根据主题的分布训练支持向量机分类器。另外,本文探究了深度网络与图模型融合的可能性,应用深度网络学习卷积特征,这些特征通过量化得到视觉单词,然后,采用图模型学习潜在主题。实验发现,该模型能学习更具判别力的中层特征,通过图模型获得的中层特征与深度特征是互补的,两者的结合能进一步提高分类性能。第三,针对背景干扰细粒度目标特征提取的问题,进行了基于显著概率统计模型的图像分类算法研究,提出了一种基于显著的图模型。本文采用超像素生成方法将图像分割为多个子区域,根据全局特征、局部特征以及各区域的显著信息提取图像目标以及识别目标类别。同时,本文提取目标级特征,并用其训练支持向量机分类器。最后,图模型和分类器得到的类别后验概率相互融合,采用最大后验的方法挑选概率最大的类别,将其作为图像的分类标签。第四,针对细粒度目标存在姿态差异的问题,提出了基于姿态鲁棒概率统计模型的细粒度图像分类算法。本文采用两阶段的判别特征挖掘方法区分细粒度图像。在第一阶段中,本文生成一组由多个部分组成的多边形。对于每个多边形,训练基于卷积神经网络的深度特征的分类器。然后,通过贪婪算法选择判别力强且互补的基于多边形的分类器。在第二阶段,根据验证集的混淆矩阵选择在第一阶段容易发生混淆的类别。针对这些类别,训练基于多边形的分类器。然后,采用贪婪算法选择判别力强的分类器。对于测试图像,首先使用在第一阶段训练的分类器来获得初步结果。然后,通过第二阶段的分类器区分第一阶段容易混淆的类别。第五,由于文本特征能够为商店分类提供重要线索,提出了基于文本概率统计模型的商店分类算法研究,本文引入了两种特征:文本样例相似性和候选加权的卷积网络。前者使用各类别具判别力的字符样例检测器的输出打分来表示文本信息。后者首先生成一组可能对象区域,随后针对商店特有属性对各区域打分,包围商品的候选被给予更高的目标打分。最后,优化图像级和文本级特征的权重。