论文部分内容阅读
随着计算机技术和网络的发展,产生了越来越多的视频数据。相比较于传统的文本信息,视频的内容更加丰富、直观和生动。但是视频由于其非结构化和内容的多义性,使得无法对它进行有效的检索。如何对这些视频进行有效地组织,存储,管理和检索,使用户能快速获得所需要的信息,已成为一种迫切的需求。传统的信息检索方案,因其不能自动、客观地概括视频的内容,已越来越不能满足信息技术发展的需要。20世纪90年代初,开始了一种新技术的研究,这就是目前人们普遍关注的基于内容的视频检索技术(CBVR,Content-Based Video Retrieval)[10,11]。早先的视频信息检索方案,是通常人工浏览视频、人工标注信息来实现的。但它不能客观、准确、全面地概括视频的内容。现有的内容检索技术则是基于底层特征的,它将视频序列分割为镜头,并在镜头内选择关键帧,然后提取镜头的运动特征和关键帧中的视觉特征,并存入视频数据库[3]。最后根据用户提交的查询按照一定特征进行视频检索,将检索结果按相似性程度交给用户。这种检索方式是基于底层特征的,非语义层面的。然而,人们更习惯于使用高层概念进行相似性判断。当中存在的低层特征和高层语义之间的“语义鸿沟”问题,使得CBVR还难以适用于普通用户。如何填平“语义鸿沟”,达到语义级别的视频检索,成为最具挑战的研究内容。为实现根据语义查询,本论文针对视频高层语义提取(或视频标注)展开研究,利用支持向量机(SVM)提取视频的语义特征。在当前普遍缺乏训练样本的前提下,将主动学习引入语义提取当中,在人工干预尽量少的情况下,获得更好的结果。然而已有的主动学习算法多采用单模态的方法,即将特征向量串联成一个大维数向量,来进行学习。考虑到视频特征的多样性和复杂性,本文提出一种基于SVM的多模态主动学习算法,在每一轮主动学习中,根据每个模态反馈的样本进行人工标注。每个模态使用SVM学习其概念。通过该方法,更充分地挖掘了人工标注的劳动,避免反馈样本局限于特定区域。本文的主要工作如下:1、首先论述了视频检索的研究背景和研究现状;2、在研究视频检索关键技术的基础上,提出了本文所使用的特征和特征提取的方法;3、针对支持向量机的广泛应用,展开对统计模式和支持向量机原理的研究,并将SVM应用于视频标注。4、在前两步的基础上,针对上面提出的问题,设计了一种基于SVM的多模态主动学习算法,并进行了实验验证。5、最后设计了一个快速检索框架,帮助实现本文的工作。