局部到全局的场景识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:onlysunnyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景,包括自然场景(如海岸、田野、森林或街道等)和室内场景(如卧室、餐厅和厨房等),是一种抽象概念,一般由多种相对具体的物体或其它中层概念(如人、汽车、天空、水、树等)组成。场景识别是指让计算机自动预测图像中的场景概念并标注图像,相对于物体等中层概念,抽象的场景概念的识别是更具挑战性的问题。由于低层视觉特征和高层场景概念之间存在着“语义鸿沟”,因此由视觉到场景概念的预测一般需要多步推理实现,包括底层视觉到中层语义概念再到高层场景概念的逐步推理。然而中层语义的推理需要大量的局部图像标注,目前难以满足。但让局部图像继承全局图像的场景概念,利用弱监督训练局部模型,学习得到局部场景概念概率描述,可以解决局部标注不足的问题。本文基于弱监督洲练局部模型,为解决场景识别中的抽象性、类内差异性及类间相似性问题,深入开展由局部到全局的场景识别理论和技术研究,提出了基于共生字典编码去噪的局部特征增强方法、联合多特征及空间上下文关系建模的局部特征增强方法、多卷积神经网络多尺度空间上下文关系建模的局部到全局的特征融合方法和局部到全局的卷积神经网络模型训练方法。具体方法总结如下:  (1)提出了基于共生字典去噪的局部特征增强方法。基于图像块训练局部语义模型会导致概念共生,而概念共生中导致场景类内差异性的部分可以看作是一种噪音。为解决局部概念共生噪音问题,本文基于共生字典编码并重构语义描述,以实现噪音滤除。面向大规模识别任务,本文还提出了一种基于字典编码的核函数特征嵌入技术。实验表明,去噪后的语义描述能有效提升场景识别准确率,核函数嵌入后的方法更适合大规模场景识别任务。  (2)提出了联合多特征及空间上下文建模的局部特征增强方法。为解决因局部概念共生导致的类间相似性问题,本文提出了一种联合多特征及空间上下文关系建模的方法,该方法基于马尔科夫随机场,探索语义描述的空间上下文及多特征上下文关系,实现了含上下文关系的语义描述间的有机融合,最终得到具有类间区分性且含稳定共生的语义描述,实现了场景识别正确率的提升。  (3)提出了基于多卷积神经网络(convolutional neural network,CNN)多尺度空间上下文建模的局部到全局特征融合方法。为解决传统方法中混合高斯因模型冗余导致的训练及测试速度慢,且识别正确率低的问题,本文提出了一种应用神经网络模型学习场景概念概率描述的方法,实现了场景概念概率描述的提取速度和识别准确率的明显提升。本方法还分别在不同尺度下提取场景概念概率描述,并基于多CNN与多尺度空间上下文关系进一步建模,从特征优化的角度实现了局部到全局的融合,进一步提升了高度抽象场景图像的识别准确率。  (4)提出了局部到全局的卷积神经网络模型训练技术。为解决传统方法过于依赖大规模数据训练CNN的问题,面向数据量有限的RGB-D室内场景识别任务,提出了一种局部到全局的二步式CNN模型训练技术。首先基于Depth图像块,应用弱监督预训练CNN模型,然后以预训练模型为初始化值,基于全局图像进一步实现局部到全局的微调训练。相比于传统的方法,本方法不需要依赖大规模数据的预训练,且在Depth数据上的识别正确率反而优于传统的基于大规模RGB图像预训练然后实现迁移学习的方法。而面向RGB-D数据识别任务,提出了一种多源多模态模型,实现了RGB和Depth模态的有效融合。
其他文献
随着计算机技术的发展,计算机辅助教学系统越来越受到人们的重视,特别是随着多媒体技术和网络技术的出现,计算机辅助教学系统得到了空前的发展,教学的形式、方法及内容等都发生了
SQL是针对结构化数据提出的,其能力不足以表达多数据库中将要集成的半结构和无结构的文件数据.在分析和比较了传统数据库的SQL、XML查询语言和面向对象查询语言的基础上,结合
现在,企业的很多应用系统都是独立的,既没有统一的客户视图,又实现不了业务流程的配置和管理.在这种背景下,BPMS(Business Process Management System)作为一种新型的应用系
基于实例推理的电子工艺设计系统是武汉邮电科学院委托我们开发的"CIMS三期工程"项目的一部分.传统的PCB (Printed Circuit Board,印刷电路板)装配往往需要过多地依赖工艺员
数字减影血管造影技术(DSA)是应用在诊断血管疾病中的一种新的X光线照相技术.可以使用它来获得分布在身体内各部位中的动脉的图像,从而高效地进行动脉结构与其周围的骨骼、软
随着Internet的迅速发展,网络信息不断膨胀,为了提供高效、准确的信息服务,我们需要对网络中纷繁复杂的信息进行合理的组织与分类.目前,搜索引擎对于在Internet网上查找信息
该文首先回顾了MPLS VPN技术在业界的发展状况,指出国内外开放该业务的区别,然后介绍了MPLS VPN的框架体系及关键技术,并通过重点描述对MPLS VPN组网的功能、性能、业务等方
嵌入式电子地图的实现受限于嵌入式设备、软件开发平台、电子地图数据资源等.GIS经过几十年的发展,有丰富的PC机电子地图数据资源.利用这些数据实现嵌入式电子地图可以充分利
该文以自主开发的工厂CAD系统PDSOFT Piping为背景,对工厂模型的快速绘制技术进行了研究,主要工作有:1.设计了一种参数化的图形描述语言和工程图形库.2.提出了一种视点相关的
近几年,中国现代远程教育得到了很大的发展,国内外有关现代远程教育的技术规范也相继涌现,其中,学习资源共享与复用是国内外现代远程教育追求的一个重要目标.教案制作是教师