基于主题模型的场景视觉理解研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:renbai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景理解是是计算机视觉研究主要目的之一。场景理解属于高层视觉范畴,其主要任务包括识别复杂场景中的对象、判别对象间的关系、解释事件发生的时间和地点等。场景理解需要综合视觉领域多个方向的研究成果,如在物体识别与分割的基础上,通过结合场景标注、分类等信息可以进一步解决场景理解问题。近年来,基于词包表示的主题模型已广泛应用于物体识别与分割中,并取得了较好的结果。但是现有模型大多存在缺陷,特别是假设主题的生成与像素块的生成均是独立的,缺少对场景中不同对象关系的建模,且一般难以更好地利用场景中其它模态的信息。本文提出了一种新的统一概率图模型,采用基于主题的一致区域标注方法来自动标注图像区域。本文模型在以下两方面扩展了经典的LDA模型:在主题层次通过将Markov随机场引入空间相邻关系的约束,以及加入标注模块来学习和推断图像的区域标注。本文给出了平均场变分推断法进行模型学习和推断的具体方法。本文模型有如下两个优点。第一,我们对空间信息作显式建模,以获得更加连续一致的区域标注;第二,在训练模型时我们只需要对图像整体的标注,而不必把标注关联到特定的像素或区域,这种标注和图像区域的关联可以自动推断,有效地减轻了人工标注的成本,提高了效率。基于本文学习所获得的模型,可以给定一张无文字信息的场景图像,自动标注其中的场景区域。最后.我们通过在2个公开数据库上的实验评估了本文模型和方法的性能。
其他文献
该文论述在COSIX环境下开发CD_ROM驱动程序所需的基本概念,以及与此相关的物理 硬件及ATAPI协议.以此为基础,设计和实现了一个CD_ROM设备驱动程序.此驱动程序的特 点在于:以
目前,越来越多的公司发布了自己的Web Service API,人们对API的功能需求也越来越多,单个公司的API已经无法满足人们各式各样的需求。于是,服务混搭的概念也被随之提出并且被越来
该文论述了基于虚拟环境的人体交互技术,采用计算机网络为数据交换通道,将地域上分散的、以虚拟现实技术作为人机交互方式的仿真节点互联起来,使之加入到一个综合的虚拟环境
恶意软件是威胁信息安全的重要因素。为了抽取和分析恶意软件运行时的行为,安全产品厂商和分析人员开发出自动化的分析工具。然而,恶意程序会检测出分析工具的存在,逃避分析,
该文将QoS管理和多媒体通信、特别是多媒体组通信的研究相结合,深入研究基于QoS的网络路由选择机制、点对点多媒体通信抽象和多媒体组通信抽象机制.该文提出两种基于QoS的点
该课题致力于数据仓库及基于数据仓库的在线分析处理(OLAP)技术的研究.该文在深入研究了数据仓库的特点、组成及有关概念的基础上,提出了主题、数据双重驱动的数据仓库的开发
该文中设计和实现的BSP编程环境是对BSP并行程序设计的有力支持.它通过向程序员提供一系列的辅助工具,使程序员能更为方便地进行BSP并行程序的开发.人们设计的BSP并行编程环
学位
该文简要介绍了首钢集团生产经营日报系统,并分析了该系统目前存在的两个主要问题,即查询和数据修改问题.该文主要完成了以下工作:微机网络的改造,建立了基于TCP/IP协议的Int
该文主要研究CIG像素处理器的设计.像素处理器采用了适合并行处理的算法和结构来提高流水线速度;同时选择了Altera公司先进的大规模现场可编程门阵列FLEX10K、AMD公司的MACH