图像分类中高阶特征编码方法的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aids1324170
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉词袋模型作为计算机视觉中最经典的模型之一,在图像分类、图像检索、视频行为识别等方向都具有广泛的应用。特征编码是视觉词袋模型中的关键技术,在很大程度上影响了最终的分类性能。该问题的研究难点在于如何充分利用字典与训练样本特征分布的信息来设计有效的编码方法。现存的特征编码方法以低阶编码居多,对于高阶特征编码的研究相对较少。本文重点研究了如何在图像表达中挖掘高阶信息,提出了两种新颖的编码方法。传统的局部约束线性编码使用的字典由视觉单词组成,由于没有考虑视觉单词周围特征分布的几何结构,因此只是特征空间的分段常量近似。为解决此问题,本文提出了局部约束的仿射子空间编码(LASC) 。 LASC将一组低维的线性仿射子空间的集合作为字典,每个子空间使用相应的局部坐标系(各自的坐标原点及其子空间基向量)来刻画特征空间的局部几何结构。仿射子空间字典可以看作是对特征分布的分段线性近似,比传统的视觉单词字典具有更强的表达能力。LASC使用局部约束的编码策略,将特征在近邻仿射子空间上的线性投影作为一阶编码。同时,本文基于费舍尔信息测度提出了二阶LASC编码,充分利用了特征分布的高阶信息进一步提升性能。针对深层卷积神经网络特征和大规模图像分类问题,本文在传统的费舍尔核的理论基础上提出了基于高维协方差字典的费舍尔向量编码(FV-COV) 。高维协方差建模充分利用了卷积神经网络特征的优势,直接建模原始特征各维度之间的相关性。相比传统的费舍尔向量使用的对角协方差的混合高斯模型,协方差字典不仅更充分的利用了特征分布的二阶信息,而且计算方便。由于不需要迭代算法训练字典,该方法避免了高维特征下的字典学习带来的数值稳定性与效率低下等问题。同时,FV-COV的分类性能优于传统的费舍尔向量编码方法,使高维局部特征可以应用在大规模图像分类问题上本文使用传统的手工特征和基于深层卷积神经网络的特征,对提出的两种高阶特征编码方法进行了大量的实验评估。LASC相比其他经典的特征编码方法在多个标准的物体识别和场景分类数据库上都具有领先的性能,同时在图像检索问题上也取得了具有竞争力的结果。FV-COV作为一种改进的费舍尔向量编码,在诸多大规模图像分类数据库上达到了当前最高的准确率,与同类方法相比在性能与效率两方面都有较大的优势。
其他文献
网络编码是一种新颖的网络传输技术。与传统网络中只具备存贮转发功能的节点不同,中间节点可以将接收到的数据进行编码。作为通信网络技术中重要的研究内容,网络编码能够在带
随着互联网的迅速发展,网络安全问题也日益严峻。黑客通过IM网络协议截取隐私、传播病毒,以P2P技术为核心的网络应用占用了大量网络带宽。另外,企业员工利用网络在工作时间进
本文主要研究基于稀疏表示的地震信号压缩方法。对于地震学学者来说,地震数据的记录是很宝贵的资料,通过这些数据可以很好地学习地震的规律。人类对于地震数据的记录已经有10
超宽带穿墙雷达是一种新的雷达探测技术,它利用发射超宽带电磁波信号穿透墙壁等非透明障碍物,实现对目标的检测、定位与成像等,在灾难救援、执法、反恐等领域有重要的应用价
随着无线通信业务的日益增多,频谱资源显得愈加稀缺,认知无线电被认为是解决频谱资源匮乏的最佳方案。认知无线电是一种智能的无线通信系统,它能够通过感知频谱环境、智能学
随着无线通信需求与应用的迅猛发展,无线频谱资源日益缺少的问题凸现了出来。但是,现有的频谱管理和分配政策使得目前频谱利用率十分低下:大部分已分配频谱并没有被充分使用,
由于拖曳式诱饵(Towed Radar Active Decoy, TRAD)干扰对雷达导引头的速度、距离、角度跟踪环路产生欺骗式或者压制式干扰从而导致导引头无法准确命中载机,因此该干扰已成为雷
异常事件检测(Abnormalities Detection)是智能交通监控中的一个热门研究领域,其实用化后将成为智能交通系统(ITS)的一个重要组成部分,目前虚拟线圈技术已得到广泛应用,但基
通常人们在面对复杂场景时会优先注意最重要和最感兴趣的区域,视觉系统能快速从复杂场景中提取出该区域。显著性目标检测作为图像分割,图像分类,视频追踪,图像压缩等众多复杂
随着人工智能与计算机技术的迅速发展,纹理分类在医疗、卫星、机器人等多个领域发挥越来越重要的作用,这些应用涉及到人们生活中的各个方面。作为计算机视觉领域图像分类任务