视频时空特征表示方法及其在视频分类中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:dbbzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术、多媒体技术以及数字传输技术的不断发展,以及摄像机、手机、平板电脑等数码设备的不断普及,视频的数据量急剧增长。因此,在网络、广电、出版等各大领域使用数字技术产生、传输和保存了大量视频。面对这些海量的视频,如何有效地对其进行分类和管理,从而使用户能够迅速获取想要的信息,是当前研究和应用的关键问题。视频包含了丰富的内容,视频特征表示是对视频进行分类和检索的重要基础,如何提取有效的中层特征来对视频进行准确描述是一个难点问题。如果不能获取有效描述视频内容的特征,则后续的分类器学习也无法取得好的效果。  传统的基于词袋模型(Bag-of-Word,BoW)的视觉特征表示方法是局部块视觉词的统计直方图,由于其采用朴素贝叶斯假设,忽略了视频中视觉词在空间-时间上固有的上下文关系。然而,这些上下文线索对于人类识别不同的视觉内容是十分有帮助的,特别是视频内容。实际上视觉词在空间上并不是相互独立的,视频相邻帧的视觉词也是相互关联的,它们具有内在的空间-时间分布规律,可以为视频特征表示提供丰富的语义补充。  针对上述问题,本文提出了基于时空马尔科夫链模型(Spatial-TemporalMarkov Chain Model,STMCM)的视频特征表示方法。首先,基于三维网格结构采样视频中的视觉词,然后将形成的视觉词三维网格结构转化为空间-时间马尔科夫链,通过最大似然估计来训练空间-时间马尔科夫链模型以得到模型的转移概率,从而获得视觉词的时空上下文关系,最后结合原始词袋模型形成更具有表达能力的视频特征表示。基于上述特征表示,本文一方面提出了时空马尔科夫核(Spatial-Temporal Markov Kernel,STMK),用来描述局部的时空上下文关系;另一方面还提出了时空马尔科夫金字塔核(Spatial-Temporal MarkovPyramid Kernel,STMPK),用来获取多层次的全局时空上下文关系。通过时空马尔科夫核及时空马尔科夫金字塔核,本文能够利用判别式模型挖掘马尔科夫链模型转移概率所描述的时空关系,并可以处理视频中经常出现的旋转问题和多尺度问题。本文在两个真实情况下的具有挑战性的数据集,即TRECVID2005视频标注数据集和UCF50动作识别数据集上进行了实验,实验结果验证了本文所提出方法的有效性。
其他文献
漫画作为一种特殊的休闲娱乐类出版物,通常由简单形象的绘画内容和少量的文字构成,深受不同国家各年龄段阅读者的喜爱。随着移动终端(如智能手机、平板电脑、电子书阅读器)的普及
论文的主要工作包括:网络视频领域相关技术的研究与学习,嵌入式Linux系统的设计,Linux下的视频采集和MPEG-4视频压缩的开发,网络传输部分的开发以及在嵌入式硬件平台上的移植
该文围绕人工智能领域中时空推理(Spatio-temporal reasoning)及应用的若干关键问题进行了研究和探讨.时空推理由时态推理和空间推理发展而来,已成为近年来人工智能以及地理
借鉴传统图书馆的知识组织理论,该文根据DL环境的要求对传统的知识组织工具——分类法和主题词表加以改造,并结合DL中最重要的信息资源——语义元数据的特点,将它们三者集成
作者目前工作的北京住力电通光电技术有限公司准备实施一套ERP系统,从产品的介绍到与供应商的交谈和演示中能了解到这套系统的质量管理的功能不够理想,只能够作为生产部质量管
互联网已经成为信息社会的重要基础设施。而随着社会的发展,当今互联网出现了路由扩展性、动态性、安全性、可管理性、可靠性、QoS以及能耗等方面的问题,已经不能满足高信息时
本文综合已有安全操作系统方面的实际研究成果和经验,提出了一种能从应用层动态载入、具有模块化结构的操作系统安全内核的构建模型。KNumen就是根据该模型在Linux平台上开发
模式匹配(也称为串匹配)是计算机科学中基本问题之一,已经广泛地应用到了生物研究、音乐信息检索和序列模式挖掘等各个领域。在模式匹配中,有的仅仅考虑最后一个模式子串在序
穿戴计算是移动计算技术向纵深发展的高级阶段,穿戴计算机是一种能够随合作者任意移动的新型计算机系统,具有可再编程能力、解放使用者的双手、网络连接能力、连续操作和交互
该文以开发通用的档案信息管理系统为目标,把面向对象技术的构件化开发方法应用到档案信息管理系统的开发过程中,对改进现有应用软件系统的开发方法具有积极意义.该文首先介