基于融合空间信息LDA的视觉对象识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ahphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的迅速发展,我们可以获得巨大的图像资源,同时也面临着计算机视觉研究的巨大挑战,即如何找到有效的方法来自动标注图像,减少手工标注所消耗的人力资源和人为倾向性,并且提高检索图像的准确率。图像的语义理解是解决这类问题的关键。近年来很多学者将广泛用于自然语言处理的潜在狄利克雷分布模型(LDA)引入图像对象识别中,该模型便于图像的语义理解,但是也存在弊端:它假设每个词汇所对应的主题是条件独立产生的。根据图像本身的特性,图像的空间信息对图像物体识别有重要作用,视觉词汇所对应主题的生成与其相邻区域主题的产生有一定的依赖关系,所以本文提出融合空间信息LDA模型用于图像视觉词汇主题的产生过程,并使用SVM分类器对得到的每幅图像所对应的主题分布比例进行分类,从而完成图像对象识别。首先,对图像提取特征。本文使用了两种图像特征:SIFT特征、HOG特征。将提取的SIFT特征与HOG特征分别使用online-Kmeans算法聚类。最后将每幅图像的特征表示成聚类得到视觉词汇表索引号形式。其次,设计融合空间信息LDA模型,即将条件随机场(CRF)融合进LDA模型中。在隐含层引入条件随机场,使得每个视觉词汇所对应主题的产生依赖于其相邻视觉词汇的主题。针对该模型提出需要优化的目标函数,使用EM算法和变分推理算法对模型的参数进行估计。此外还对原LDA模型使用Gibbs采样算法估计模型参数。最后,使用训练好的模型对测试图像进行测试,得到每幅图像中视觉词汇所对应的主题分配,同时也得到每幅图像的主题分布比例。将图像所对应的主题分布比例向量作为图像的特征,使用SVM分类器对不同类别的图像进行分类。本文采用Visual object classes (VOC)算法挑战赛的训练图像和测试图像进行实验。实验表明,融合空间信息LDA模型能有效的融合图像空间信息,与原LDA模型相比提高了图像对象的识别率。
其他文献
随着信息技术的发展和办公自动化的普及,PDF文档逐渐成为人们工作和学习上必不可少的首选应用文本软件。尽管PDF文档带来诸多便利,使用过程中渐渐出现很多安全问题。攻击者利
随着互联网的发展,传统关系型数据库(RDBMS)已不能满足大数据时代所要求的系统水平扩展的需要。NoSQL存储提供了一个具有巨大的可扩展性、容错性、可用性、可靠性的下一代数据
近年来,基于位置的服务(Location-based service,LBS)在人们的日常生活中得到了越来越多的应用,其中隐藏的位置隐私安全问题也逐渐引起人们的关注:用户必须向位置服务提供商(如Go
现阶段计算机信息化的迅速发展,一些大型的复杂武器装备已经不能使用纸型技术资料手册很好的来描述其信息。而交互式电子技术手册(Interactive Electronic TechnicalManual,IETM
吸烟成瘾是最常见的成瘾之一,因为吸烟去世的人每年有600万,其中通过直接吸烟失去生命的人有500多万,还有一些是通过吸二手烟的不吸烟人群,大约有60多万。如果不抓紧采取措施,再过
随着互联网的普及和高校信息化的建设,各大高校都拥有自己的BBS网络,学生在网络上进行交流,发表自己的观点和意见,表达思想等,舆情的影响和规律都不容忽视。然而,对敏感和突
随着计算机网络与无线通信技术的飞速发展,各种无线通信网络与人们的生活和工作联系得越来越紧密,同时人们对网络的多样化服务以及传输质量提出了更高的要求。而在无线通信网
安全多方计算(Secure Multi-party Computation,以下简称SMC)是指解决一组互不信任的参与方之间保护隐私的协同计算问题。SMC要确保输入的独立性,计算的正确性,同时不泄露各
在IT系统中,规则引擎作为一种灵活的组件能够将业务规则从硬代码模块中剥离出来,实现了业务规则的单独创建与维护。业务规则一般是指与业务相关的规章制度、操作规范、行业标准
对于竞争紧张而激烈的现代社会来说,数据信息正以指数级的速度增长着。在美国911事件中,由于关键数据丢失而破产的企业不计其数。在日常工作中,来自人为操作失误、自然环境破坏