论文部分内容阅读
随着多媒体技术和计算机网络技术的发展,数字视频的存储和传输不再是一件困难的事情。数字视频越来越广泛地存在于人们的生活空间中,视频点播(VOD)、数字图书馆等视频服务也开始走进人们的生活。对这些数字视频必须进行有效地管理和组织才能很好地对其进行分析和利用。一个视频数据库就是能够有效管理视频数据,向用户提供基于内容的检索的软件系统。视频数据库原则上应该解决视频数据模型的建立和视频数据的存储、查询和处理操作等问题。 由于视频数据自身内容的丰富性和多样性、结构的复杂性以及具有时空多维结构,传统的数据库技术已经不能满足对视频数据进行有效管理的要求,需要对视频数据进行基于内容的存取和管理。本文以基于内容的视频检索为出发点,提出了一种基于内容的视频数据模型,从几个层次上描述视频数据。以该模型为基础,研究了基于内容的视频分析技术,包括视频镜头分割、代表帧的提取、视频场景聚类及视频内容分层表示等;并在这些基础上实现了对视频的基于内容的检索。论文的主要工作如下: 1)针对现有模型在检索粒度和对象关系描述方面的不足,本文提出了一种基于内容的分层视频语义联想模型。该模型结合了面向对象技术和语义网络表达方法,构造三个层次的信息:概念层次树,场景网络和语义对象网络。利用概念层次树来限定语义,适应不同的应用环境,指导语义对象的生成;通过镜头聚类形成场景网络,表达视频段的时间特性和粗略信息。语义对象及其关系构成的语义对象网络用来表示视频内容,通过分属不同镜头的语义对象的关系来表示镜头间的语义相关度。通过定义一组代数操作,描述了在模型上的数据库计算和数据共享等问题。 2)在比较各种帧间差计算方法的基础上,本文提出了一种综合考虑帧图像的空间特征和颜色特征、采用自适应阈值的镜头边界检测算法。算法综合利用视频帧图像的分块直方图差和象素差异直方图统计方差,根据差值的分布自动计算阈值,能较好地检测出镜头突变和物体运动以及光线变化等情况,对渐变镜头也能达到检测的目标。实验结果表明该方法可以适应不同的视频,并具有较高的查全率(Recall)和查准率(Precision)。 3)针对提取出来的镜头,提出了一种基于最大最小距离聚类获取镜头代表帧的算法。该方法能快速将镜头内的帧按相似度聚类,并且可以根据镜头内容变化的多少来选择相应数量的代表帧。实验表明这种方法实现简单,能较好地表示镜头的内容。 4)在提取镜头代表帧的基础上,提出了一种基于时间约束函数的视频场景构造方法,采用带时间约束的聚类方法来得到相似镜头的聚类,然后对聚类进行分析,构造最终的场景结构,从而得到视频内容的更高层次的表示。此外,为了提高整个视频库的浏览和检索速度,本文提出采用带竞争学习的k均值聚类方法将属于不同视频的镜头组织在一起,形成镜头层次聚类树结构,该方法能够显著降低查询时的镜头比较次数。 5)提出了一种基于分段的快速视频摘要方法,直接对视频进行一次扫描,将其分割成内容变化很小的分段,同时为每个分段提取一个代表帧,从而构成视频的摘要序列。实验结果表明,这种方法能快速有效地提取出视频的摘要序列。 6)提出了在视频分层语义联想模型下的基于内容的检索方法。针对本文提出的视频分层语义联想模型,本文定义了一种类SQL语言来检索视频语义对象、镜头和场景。本文把对模型的基于内容的查询归类为语义相关性查询,时间查询,相似性查询,镜头相关性查询和混合查询。并对每种查询方式提出了例子和相应的查询语言,同时提出了在分层语义联想模型中处理这些查询过程的算法。这几种检索方式涵盖了分层语义联想模型的检索要求。