场景分类中类别可扩展性研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lihaolong2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景分类是计算机视觉领域的研究热点以及难点,在图像检索、视频检索、医学应用和旅游导航等诸多领域有着重要的意义以及广阔的应用前景。图像自动分类与图像检索将成为未来计算机视觉技术发展的重要方向。目前,场景分类的研究还处于不完善的阶段,虽然在小型数据库中取得一定的进展,但是由于场景图像的复杂性、现实生活图像的类别多样性等问题,场景分类技术在类别扩展性方面仍面临着许多困难。针对上述情况,本文围绕图像场景分类的特征提取,视觉词典构建以及图像表征展开研究,论文的主要工作以及创新点如下:   1、提出一种自适应构建码本的方法以解决类与类之间的差异性。每个类的内部复杂度不一样,如果用同样的码本数描述不同的类这是不准确的,针对这个问题,提出了一种自适应的聚类方法来构建各自的码本数。这个方法主要是通过自适应的聚类方法找出每个类所需的码本数,并通过实验验证该算法能使最终分类结果的准确率能提高2%。   2、提出一种考虑空间关系的图像分类算法以解决类内部的差异性。考虑到现有的图像分类方法为了计算方便而不考虑图像的空间关系,但是图像的空间关系是可以解决由图像的光照以及拍摄尺度不同所造成的场景区别这个问题的,针对这个情况,提出了一种考虑空间关系的图像分类算法,采用hog-pair的计算方法来表示图像的空间关系,使得最终的图像分类结果得到接近3%的提高。   3、提出分聚分建的图像分类算法以解决类别扩展性问题。本文提出的模型是针对各类别分别聚类然后建立词典,每张图像的表示方法都是分别在每类的词典上映射的。图片特征是在各类别码本字典中独立建置,故随类别增加,虽码本字典相对扩充,但原来己计算的图片特征不需要重新计算,只需要计算图片在新类别下的码本字典对应的特征,然后合并起来即可,并通过实验验证,所提方法在类别新增加进来时,可以在避免重新计算的前提下,也能保证87%左右的准确率。   总之,本文在总结现有图像场景分类方法的基础上,从特征提取、视觉词汇构建和图像表征这三个场景分类技术的核心问题入手,首先提出了自适应的码本构建方式,然后提出了Hog-Pair的计算空间关系的算法,最后针对现有的场景分类方法不能很好解决类别扩展性的问题,提出了基于分聚分建的场景分类方法。在Scene-13、Scene-15数据库上的实验表明,本文所提出的方法提高了分类准确率,并在一定程度上解决类别扩展性问题。
其他文献
随着时间与技术的飞速发展,人们步入了数字与信息化时代,人人手中有电脑,户户通讯用互联。在数据资料急剧增长的现在化社会,虽然各种技术各种平台各种Management Information sys
实际应用中Web服务组合的正确性不仅受到其他Web服务的约束,也受到Web环境的约束。由于Web环境的特殊性,很难用传统的方法进行建模和分析,因此研究Web环境约束下Web服务组合
射频识别定位系统具有安全性高、成本低、灵活性强的特点,在室内定位追踪领域中有着极其重要的研究意义。其在军事、商业领域的位置感知应用也具有较大实用价值。本文研究了
视觉目标定位与分割是计算机视觉领域的热点研究方向,是环境感知的前提条件。所谓视觉目标定位就是找到图像中的目标,并给出其空间位置关系。视觉目标定位是图像语义分割的基
天气过程的识别是影响临近预报的准确与效率的主要因素之一。一种采用聚类的多尺度天气过程识别技术能够很好的描述出天气过程的气象结构,然而其计算量很大,十分耗时。这制约了
“主存墙”是限制高性能处理器系统性能的主要因素之一。主存储器的存取速度通常比处理器的计算速度慢两个数量级。为了减小这一差距,现代主存储器大多采用行缓冲优先请求调度
运动目标跟踪技术在军事和民用等领域具有广泛的应用前景。但由于应用环境的复杂性,跟踪过程中目标容易受到部分或全部遮挡、外观变化、姿态变化、光照变化、平面内旋转等综
随着经济和技术的迅速发展、网络购物等的逐渐流行,运输服务的作用日益显著,成为商业和日常生活的基础环节。车辆路径优化问题主要研究车辆路线的安排,以降低运输成本、节约
随着水资源可持续发展的需要,天然水资源在空间上和时间上的再分配引起各国的广泛重视。水坝的建造是水资源再分配的重要手段,但随之而来的洪水、大坝形变和渗透等安全问题严重
容迟网络(DTN)指具有延迟大、错误率高、间断性连接等通信特征的网络,其研究起源于上世纪美国国防研究部对星际网络的研究。2003年,Kevin Fall在国际会议上正式地提出了容迟网