图像理解中的物体识别与语义分析研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：lpt207

【摘要】

：

图像理解是在图像处理与分析的基础上，结合人工智能和模式识别理论，解释客观图像场景并分析图像内容，从而指导和规划人类行为。图像理解以图像为对象，知识为核心，研究图像中何位置

【作者】

：

刘曦

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

图像理解物体识别语义分析多标签分类特征捆绑协同推举半监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像理解是在图像处理与分析的基础上，结合人工智能和模式识别理论，解释客观图像场景并分析图像内容，从而指导和规划人类行为。图像理解以图像为对象，知识为核心，研究图像中何位置有何物体、物体场景之间的相互关系、图像是何场景以及如何应用场景等等，它与计算机视觉、人工智能有着密切的联系，具有重要的理论研究意义和广阔的应用前景。　　本文瞄准图像理解的核心问题，以通用图像为研究对象，按照“表示与存储-认知与学习-分析与理解”的研究思路，着重研究图像理解中的物体识别和语义分析问题，具体包括单类、多类物体识别和图像多标签分类。通过结合低层视觉特征和语义化图像特征以及半监督学习和多标签分类等机器学习技术，提出一些物体识别模型和图像多标签分类方法。取得的主要成果有：　　 1.提出一种基于特征捆绑的物体识别模型。该模型是结合一种特征捆绑计算模型Bayesian Linking Field模型得到的。通过选用Gabor特征作为原始特征，然后依据各维Gabor特征对物体识别的综合贡献度选出指定维数特征作为初级特征并且将各个初级特征以及特征之间对物体的重要性作为实现特征捆绑的标准。各特征之间并不是相互独立的，相反它们的共同存在对于物体的识别有着明显的促进作用，我们的模型正是借助于该思想达到较好识别效果的。　　 2.提出一种结合外观及空域特征的半监督物体识别方法。该方法将表征物体外观的一阶特征和表征物体局部之间空域关系的二阶特征融合到一种协同推举算法CoBoost中以从噪声图像中学习物体类别。本方法很好地利用CoBoost算法的理论框架以及一阶、二阶特征的丰富的表征能力。此外，Boosting框架能选择出最具分辨能力的特征，尤其是对于二阶特征，它们是动态生成和选择的，从而避免了高维特征所带来的巨大的计算量和存储量。　　 3.提出一种拓扑序标签链分类器方法。该方法首先根据标签共现建立一个有向标签图，然后在有向标签图上应用改进的图拓扑排序算法得到一个拓扑序标签链，最后将生成的拓扑序标签链应用到标签链分类器中得到拓扑序标签链分类器。相比于原始标签链分类器中使用的随机排序链，本方法使用一种拓扑序标签链，它包含一些紧密关联的标签子链，同时链中的标签之间保持着拓扑序，这使得将它应用到标签链分类器方法中，前端建立的二类分类器会为后端的二类分类器训练提供更多的信息，从而确保得到更好的分类结果。　　 4.将模型共享技术与一种基于正例和无标注样例算法Roc-SVM相结合，提出模型共享的弱标注学习模型MSWL。该模型能很好地利用弱标注数据以及标签关联。一方面，由于模型共享技术的引入，模型能自动地找到标签之间的关联，并以共享的方式去利用标签关联。另一方面，模型中的目标函数借鉴harmonic函数方法思想，这使得任两个样本的标签和它们之间的相似度尽可能保持一致。此外，模型中采用Boosting框架，迭代地每轮训练一个基模型，目标损失函数逐渐收敛，整个模型训练简单且有效。　　 5.在本文提出的图像理解方法和实验室现有多媒体信息检索系统MIRES基础上，实现一个基于语义的图像检索系统。系统同时支持基于图像范例的查询和基于标签的查询。基于图范例查询结合严格的低层视觉特征匹配方法和一种倒排索引方法；而基于标签的查询需要语义标注方法的支持，系统使用了拓扑序标签链分类器方法、模型共享的弱标注学习方法和半监督物体识别方法对图像进行自动标注，避免了大量的手工标注。

其他文献

基于FPGA的微机接口平台的研究与实现

微机接口课程是高等学校计算机、自动化以及相关电子信息类专业主要的专业基础课,对学生深入了解微机系统的组成、工作原理及常规接口技术有重要意义,是从事微机系统设计和接

学位

高等院校微机接口课程教学信号完整性可编程逻辑阵列实验平台IP核

P2P CDN流媒体分发技术的研究与实现

随着互联网的发展,互联网应用向协协作性、多媒体方面演变。以音视频、图片为主要内容的应用极大的丰富了互联网应用内容,提高了用户参与的积极性。而多媒体应用增多的同时,

学位

P2PCDN流媒体内容分发数据调度

基于线裁剪的内容感知图像缩放技术研究

图像缩放是一种基础的数字图像处理技术,尤其是在信息技术飞速发展的今天,各种电子产品层出不穷,它们有着不同的分辨率和纵横比,当人们在这些电子产品之间传递图像时,如何满

学位

图像缩放内容感知线裁剪多操作显著图

一个UML元模型剪切工具的设计与实现

在模型驱动开发中，模型是软件开发阶段的主要制品。对信息系统进行建模需要建模语言的支持。UML是被软件工业界和学术界广泛采纳的具有权威性的建模语言。为了满足不同建模领

学位

UML元模型剪切工具图形化编辑参数配置建模元素

高速运动目标ISAR回波模拟及压缩感知雷达的实现技术研究

雷达回波模拟技术是雷达技术研究中的一个重要环节。压缩感知理论与技术在雷达中的应用是近年来雷达技术发展的一个重要方向。将回波模拟技术与压缩感知技术结合起来开展研究

学位

弹道导弹雷达回波数据压缩高速运动目标回波模拟压缩感知雷达

WMSN中可靠传输机制的研究

无线多媒体传感器网络(WMSN)中,数据的可靠传输是研究重点。基于最小跳数协议,本文提出一种带拥塞控制的时间片均衡负载多路径协议(MHDMwTS).通过分析无线WMSN中数据可靠传输

学位

无线多媒体传感器网络不相交多路径时间片数据传输拥塞控制OMNeT++仿真

基于空间数据仓库技术的煤矿人员定位系统研究

煤矿安全系统是煤炭企业安全生产的重要保障,人员定位系统则是煤矿安全系统中的重要组成部分。本文将目前比较先进的技术——空间数据仓库技术应用到了煤矿人员定位系统的研

学位

煤矿开采人员定位系统空间数据仓库联机分析

基于ZigBee数字家庭控制网络系统研发

数字家庭其中一个基本目标是为人们提供舒适、安全、方便和高效率的生活环境。这涉及到诸多设备信息和控制信号的调用和传输,而这些信息和信号对带宽的要求并不敏感;另外,由

学位

数字家庭控制网络协议转换信息交换

一个模型转换开发工具的设计与实现

OMG大力倡导的模型驱动体系结构(Model Driven Architecture，MDA)是一种对软件需求建立抽象模型，再由抽象模型自动生成完备的应用程序的方法。模型转换是实现DMA的核心技术。通

学位

模型转换模型驱动体系结构软件开发

基于规则的自适应工资系统研究与实现

随着互联网用户及应用的快速增长，基于Web的网络版系统备受关注，而工资管理系统作为各企事业单位信息化中必不可少的部分，特别是对于机关事业单位的工资需要有国家政策作为指导，

学位

工资管理系统规则引擎规则流适应性知识专家系统

图像理解中的物体识别与语义分析研究

与本文相关的学术论文