论文部分内容阅读
场景分类是计算机视觉领域的研究热点以及难点,在图像检索、视频检索、医学应用和旅游导航等诸多领域有着重要的意义以及广阔的应用前景。图像自动分类与图像检索将成为未来计算机视觉技术发展的重要方向。目前,场景分类的研究还处于不完善的阶段,虽然在小型数据库中取得一定的进展,但是由于场景图像的复杂性、现实生活图像的类别多样性等问题,场景分类技术在类别扩展性方面仍面临着许多困难。针对上述情况,本文围绕图像场景分类的特征提取,视觉词典构建以及图像表征展开研究,论文的主要工作以及创新点如下:
1、提出一种自适应构建码本的方法以解决类与类之间的差异性。每个类的内部复杂度不一样,如果用同样的码本数描述不同的类这是不准确的,针对这个问题,提出了一种自适应的聚类方法来构建各自的码本数。这个方法主要是通过自适应的聚类方法找出每个类所需的码本数,并通过实验验证该算法能使最终分类结果的准确率能提高2%。
2、提出一种考虑空间关系的图像分类算法以解决类内部的差异性。考虑到现有的图像分类方法为了计算方便而不考虑图像的空间关系,但是图像的空间关系是可以解决由图像的光照以及拍摄尺度不同所造成的场景区别这个问题的,针对这个情况,提出了一种考虑空间关系的图像分类算法,采用hog-pair的计算方法来表示图像的空间关系,使得最终的图像分类结果得到接近3%的提高。
3、提出分聚分建的图像分类算法以解决类别扩展性问题。本文提出的模型是针对各类别分别聚类然后建立词典,每张图像的表示方法都是分别在每类的词典上映射的。图片特征是在各类别码本字典中独立建置,故随类别增加,虽码本字典相对扩充,但原来己计算的图片特征不需要重新计算,只需要计算图片在新类别下的码本字典对应的特征,然后合并起来即可,并通过实验验证,所提方法在类别新增加进来时,可以在避免重新计算的前提下,也能保证87%左右的准确率。
总之,本文在总结现有图像场景分类方法的基础上,从特征提取、视觉词汇构建和图像表征这三个场景分类技术的核心问题入手,首先提出了自适应的码本构建方式,然后提出了Hog-Pair的计算空间关系的算法,最后针对现有的场景分类方法不能很好解决类别扩展性的问题,提出了基于分聚分建的场景分类方法。在Scene-13、Scene-15数据库上的实验表明,本文所提出的方法提高了分类准确率,并在一定程度上解决类别扩展性问题。