论文部分内容阅读
近年来随着存储设备、传输和压缩技术的发展,数字视频以极高的速度增长。如何有效的管理这些视频成为一个急待解决的问题。常用的方案是发展自动分析技术从视频中提取“元数据”(metadata)来对视频内容进行语义层的描述。有了这些元数据的帮助,就能有效的建立视频检索、摘要、发布和处理的工具和系统。视频或视频镜头的自动语义标注(在TRECVID任务中也称为高层特征提取)是获取这些元数据的一个基本步骤。手工进行视频集合的标注是最直接的方法,然而这样做非常耗时耗力,因此研究人员们提出了很多种基于机器学习的视频自动标注方法。目前基于学习的标注方法已经取得了一定的成功,然而由于底层视觉特征和高层语义概念之间的“语义鸿沟”的存在,基于机器学习的视频标注中仍然存在一些值得研究的问题,包括训练集的构造、如何利用大量的未标注数据、挖掘视频数据中的上下文知识,以及典型性排序问题。本论文针对这些问题进行了深入的研究并取得了如下成果:(1)针对训练集的构造问题,提出构造一个包含所有数据的时间和空间分布信息的小样本集进行人工标注作为训练集,这样在保证标注性能的同时又能大大降低人工劳动。本文给出了构造的训练集逼近原始数据集程度的评价指标并在此基础上提出了构造训练集的优化准则和近似解法。在一个家庭视频数据集合上的实验验证了本文构造方法的有效性。(2)把半监督学习的两个基本假设之一的结构假设直接嵌入进基于图的半监督学习方法的关键点相似性度量中,提出了各向异性流形排序算法,进一步提高了半监督学习方法的性能。并且从基于偏微分方程的扩散角度对该算法进行了分析,揭示了各向异性流形排序算法和普通基于图的方法的本质区别:本方法中的标记信息传播过程是各向异性的,而通常的基于图的方法都是各向同性的。在标准新闻视频集合TRECVID数据集上的实验显示了该方法明显优于SVM和其它常用的基于图的半监督学习方法。(3)分析了近期研究人员提出的局部邻域传播(LNP)的方法潜在的线性语义假设针对视频数据的不足,并受启发于核技巧(kernel trick)在模式识别领域取得的巨大成功,通过核方法把底层特征映射到一个非线性的特征空间中,解决了线性映射的限制,在映射空间中结合半监督学习中的一致性假设和非线性降维方法,提出了核映射局部邻域信息传播算法,进一步提高了视频语义标注的性能。(4)探索了视频数据的两种上下文知识,即时间一致性和语义相关性,并把这两种特性结合进机器学习方法,提出了两种利用上下文知识的视频标注方法:时间一致高斯随机场方法和基于多关系图的标记传播算法,实验说明了结合这些上下文知识能显著的提高标注性能。(5)针对目前的标注只考虑某特定语义是否存在于某个视频镜头中,忽视了镜头中该语义内容的典型程度的问题,讨论了标注中的典型性排序问题和评价指标,并给出了一个视频标注的典型性排序框架。此外,本文还结合半监督学习和多示例学习提出了一种半监督多示例典型性排序方法,并应用于自然场景标注。