图像特征编码及其应用研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:Maygzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着图像特征编码在目标显著性计算、图像分类和人体再识别技术领域的快速发展,使得计算机在真实场景中理解和分析图像内容的能力越来越智能化。目标显著性计算核心思想是利用算法模仿人眼视觉显著性功能,目的是检测图像中吸引人视觉系统的感兴趣区域。图像分类是图像理解重要研究方向,任务是按照图像的内容把图像分成不同类别。人体再识别技术在视频监控领域中起着重要的作用,目的是在多个不同的摄像头中识别特定的人。近年来,基于图像特征编码的方法广泛应用在图像分类、显著性目标检测和人体再识别方向,然而,经典的特征编码方法未有效利用每类目标的码本信息且码本中码字之间是独立的。针对以上问题,本文提出了利用类码本的方法学习特征的显著度并利用条件随机场(CRF)优化每类码本,可以有效地关联码本中码字之间的上下文信息。为了验证本文方法有效性及准确度,其应用在图像分类、目标显著性计算和人体再识别三个领域。本论文的主要贡献由以下几部分组成。1.本文利用每一类的码本计算相应类的显著性特征并采用局部约束线性编码(LLC)方法对得到的类显著特征进行编码。由于经典的图像特征编码方法仅仅学习一个全局码本,缺乏每类码本的信息。针对此问题,本文提出了一种新的特征编码方式用于解决图像分类任务,其中每类的码本由对应的指定类的训练样本获得,且本文提出的字典生成和特征编码方法简单便于实现,不需要优化计算。与模式识别领域已报导的算法相比,本文算法在图像分类精度方面呈现明显优势。例如:与KSVD和LC-KSVD方法相比,本文算法在Caltech101公共数据集上得到了更为出色的实验结果,图像分类精度达到79.8%。2.本文在局部约束线性编码(LLC)和条件随机场模型(CRF)基础上,提出了自顶向下(top-down)目标显著性计算模型。由于经典的稀疏编码方法采用的是稀疏约束项条件,需要复杂的优化算法且未有效利用近邻的局部特征信息。LLC编码方法采用的是局部约束项条件,充分考虑了码本中码字之间的近邻信息。在此基础上,本文提出了利用LLC编码和CRF模型的方法用于解决目标显著性检测任务。在训练阶段,本文把LLC编码响应作为CRF模型的隐变量,同时利用CRF模型优化调节学习的指定类码本。在测试阶段,本文提出的方法采用已学习到的显著性目标模型来计算图像中目标显著性区域。为了验证本文方法的性能,在公共数据集MSRA-B,Graz-02,Weizmann Horse及Plane数据集上开展实验,结果表明,本文提出的方法相较于已有方法,不仅能提高目标显著性检测准确度而且能减少计算复杂性。3.在目标显著性计算领域,已报导的算法多是利用目标的信息而忽略了背景信息对算法的干扰,造成在复杂背景图片中,无法有效检测显著性目标的位置。为了降低背景的干扰,本文提出了一种新的方法用于计算目标显著性的区域,将背景信息度量方法与top-down视觉显著性模型相结合,可以在复杂场景中,有效地寻找到指定目标类的具体位置。首先,本文所提方法用鲁棒的背景度量算法计算真实场景中前景显著性区域;其次,通过LLC和CRF方法学习指定类的显著性目标模型;最后,融合两种显著性目标映射图用以计算最终精确的指定类目标显著性区域。在Graz-02和PASCAL VOC2007数据集上的实验结果表明本文的方法可以取得较好的实验结果。4.人体再识别作为机器学习与模式识别领域的重要分支,其技术的研究自2012年以来一直是该领域的研究热点。经典的人体再识别方法采用计算人体图像原始特征的距离,通过距离远近决定识别的结果。由于图像原始特征包含大量的噪声干扰,直接计算图像特征之间的距离往往效果不理想。为了解决此问题,本文提出了一种新的人体再识别算法,即利用局部约束线性编码对提取到的图像原始特征进行再加工,获得更深层次的图像表示,可有效地避免噪声的干扰,并利用对原始图像重构误差大小进行识别。经典的LLC方法是利用K-means聚类算法来学习码本,与其不同的是本文把每幅图像的特征向量看作一个码字,由多个码字组成一个码本,不需要K-means聚类算法来学习码本,可有效减少计算时间。在工程测试中,大多数经典人体再识别方法测试时间较长,无法在真实场景中应用。大量实验结果表明,本文提出的方法有效解决了工程应用中的瓶颈问题,即:在保证人体再识别精度的前提下,提高了算法的时效性。
其他文献
通信和信息技术的最新发展为研究人员开启了一个新时代,通过在线提供越来越多的在线服务,如医疗保健,网上银行,购物,公用事业账单支付和游戏等,为人们的生活带来了极大的便利。公共网络用于访问这些服务,这本质上是不安全的。攻击者可以很容易地从公共网络中提取,删除,拦截和修改用户的信息。安全和隐私是这种网络的核心问题。因此,用户的信息以及消息保护是一个关键问题。为了提高安全性,最近的文献已经提出了大量的密码
学位
随着“工业4.0”战略构想的提出,在工业领域构建信息物理融合系统成为必然趋势。而要实现信息与物理的深度融合,就需要用网络将多维异构的计算单元和物理对象集成在一起,从而形成一个网络控制系统。和传统点对点的控制系统相比,网络化系统的设计面对许多新的挑战。首先,当通讯网络的带宽资源有限时,过重的通信负荷会使得系统的控制能力下降。目前,提高网络资源利用率可以采用的比较有前景的两种方法是:数据量化和事件驱动
传统的材料刚度求解方法需要进行一系列标准试验,在实施的过程中需要耗费较多的材料和时间成本。为了提高实验效率并且降低实验成本,本文进行了基于单次实验的刚度参数反演识别方法的研究,通过对实验配置的优化设计,使用单个试件进行单次加载完成对全部刚度参数的同步求解。本文通过结合全场应变测量技术和全局优化算法对基于单次实验的刚度参数反演识别方法进行了优化,对适合进行刚度参数求解的实验类型和处理参数进行了求解,
本文提出了一种由碳纳米管增强复合材料(carbon nanotube reinforced composite,简称CNTRC)和纤维增强复合材料(fiber reinforced composite,简称FRC)构成的混杂层合结构。用碳纳米管替代碳纤维作为复合材料的增强相,在现有的制备工艺技术条件下不失为一种可行的工程应用方案。由于碳纳米管增强复合材料可以在厚度方向梯度排布,因而进一步提高了结构
机器人视觉伺服控制将视觉传感信息引入机器人控制闭环,从控制系统外部感知系统的状态,在视觉空间中描述整个任务,将视觉特征集从初始状态引导至期望状态,从而完成控制目标。无标定视觉伺服在摄像机参数未标定的情况下完成这一过程。现有工作针对各种具体视觉伺服任务提出了不同特征集,达到不同任务效果,也有部分工作提出一般的理论,评价不同特征集的性能。任务可完成是提升其性能的前提,因此需要一般的系统性理论,从视觉伺
形式化验证是计算机科学中的核心课题之一;等价验证是形式化验证中一个主流领域;互模拟等价验证作为等价验证的重要组成部分,起始于上世纪下半叶。互模拟等价验证研究关注的模型大都是无限状态系统,而多数无限状态系统都涵括在一个一般的框架——进程重写系统(Process Rewrite Systems,PRS)中。从上世纪80年代开始,有大量在进程重写系统上互模拟等价验证的工作,主要分成互模拟等价性、互模拟正
图像分类是模式识别和计算机视觉领域中重要的研究内容之一。对图像分类的研究可以促进网络图像检索、视频监控和图像场景理解等实际应用的发展。图像分类既有静态图像分类,也有动态图像分类。静态图像分类含人脸识别、场景图像分类和图像目标识别等,动态图像分类指视频内容分类。图像分类的精度不仅受提取的特征影响,而且还取决于其采用的分类算法。基于稀疏表示的分类算法(SRC)在人脸识别领域的成功应用,引起了大量从事图
研究背景与目的胰岛β细胞量受胰岛β细胞大小、增殖、新生和凋亡动态调节,其在维持机体葡萄糖稳态中发挥着重要作用,当机体的糖代谢需求增加时,胰岛β细胞量也相应的增加。当机体胰岛β细胞量扩增无法满足机体糖代谢需求时,糖代谢就出现异常。成年后胰岛β细胞的增加主要通过增殖途径,因此胰岛β细胞的增殖机制研究成为今年的一个研究热点。胰岛素、葡萄糖和生长因子是促进胰岛β细胞增殖的重要营养素,而mTORC1信号作为
对称矩阵C称为完全正矩阵,若存在非负矩阵U使得C=UUT.完全正规划在组合优化,数理统计等领域有着广泛的应用.本论文主要研究了与完全正规划相关的若干问题.具体内容如下:首先,我们简要介绍了完全正规划的国内外研究现状,科学意义及相关的基础知识.完全正矩阵的判定问题是NP-难的.完全正矩阵的填充问题更为困难,是矩阵领域的一个未解决的问题.我们提出一个半定松弛等级算法,并讨论了算法的性质.当部分矩阵所有