论文部分内容阅读
随着互联网技术的迅猛发展和普及,网络图像数据爆炸性增长。如何对每天海量增长的数字照片和图片进行归类整理已成为研究的热点。场景分类技术是解决此类问题的重要途径。 在分类算法中,视觉词包模型方法是建立底层视觉特征到高层场景语义之间映射关系的枢纽。但是词包模型有两个很大的局限性:一方面,视觉单词缺乏明确的含义,另一方面它们通常是多义的。针对这个问题,本文将基于优化视觉单词的场景分类算法作为主要研究内容,分别研究了特征编码和提取上下文信息的算法。又考虑到视觉单词对于特定的图像类别能提供更多的信息这一特点,因此给这些词赋予更高的权重可以增强视觉词包在图像分析中的表现。根据这种想法本文给出了支持向量机结合视觉单词权重的分类器设计算法。本文主要工作如下: 1)给出了基于模糊集理论的空间金字塔视觉词包模型的算法 该算法以传统的视觉词包模型为基础,改进了FCM算法隶属度矩阵。根据图像块与聚类中心的距离设定分配方式,既避免了关键点距离单词太远造成的词义模糊,又保证了距离相近时单词提供的准确信息。在公共数据集上的实验证明本文算法具有较高的精确度和良好的分类性能。 2)给出了一种基于自适应先验MRF的视觉单词生成算法 该算法基于Markov随机场理论,将图像块在特征域的共生性与空间域的上下文语义关系有机地联系起来。首先利用潜在的狄利克里分布模型推出视觉单词之间的语义共生信息,然后借鉴最大流最小割算法中的边界项权值的计算方法计算出控制邻域间作用强度的参数。这种方法在一定程度上能够减缓视觉单词出现歧义的弊端,获得更加准确的图像块视觉单词。 3)给出了视觉单词权重结合支持向量机分类器设计的算法 该算法首先通过多项式核函数分类器和径向基核函数分类器获得分类结果。基于这两种分类器产生的有差异预测标签,引入了一种新颖的单词加权方法,应用加权欧氏距离函数来计算待分类图像和训练集图像的相似性。经实验表明,本算法具有较高的分类准确性,具有一定的研究价值。 为了验证改进的视觉词包应用于场景分类算法的分类性能,本文采用四个数据集进行验证,数据集范围从通用自然场景图像(FeiFeiLi-15数据集)到人类行为图像(HB-6场景数据集),以及简单的对象类(MSRC-14数据集)和复杂运动图像(UIUC-8数据集),在UIUC-8数据集上本文算法的最终准确率为86%,在FeiFeiLi-15类数据集本文算法的最终准确率为83%,在HB-6数据集上本文算法的最终准确率为93%,在MSRC-14类数据集本文算法的最终准确率为91%。其中,和当前最高分类性能相比,本文算法在HB-6和MSRC14两个数据集上的分类效果均有所超越。实验结果表明本文提出的算法是一种有效的场景分类算法。