论文部分内容阅读
随着视频数据的飞速膨胀,如何找到所需的信息已经成为一个急需解决的问题。本论文面向体育视频领域,研究基于内容的视频分析和检索技术。其目的就是通过对视频内容进行计算机处理、分析和理解建立结构和索引以方便用户获取,具有重要的理论意义和应用前景。体育视频分析技术的核心是对语义事件及其相互关系的分析,这是一个复杂而又富有挑战性的问题,其本质在于适于计算机处理的底层特征与适于人类理解的高层语义之间存在巨大的鸿沟。我们的研究主要集中在这一方向上,探讨结合领域知识对视频这种时空多维信号进行模式分析的基本方法。在论文中,我们首先分析了一类特殊的语义事件,即所谓精彩事件。然后针对更一般的语义事件,分别研究了基于规则和基于统计的分析方法。体育视频中的精彩事件没有明确的含义,只是表示比赛中观众可能感兴趣或比较重要的片断。已有的方法使用视觉或听觉特征建立主观模型来检测精彩片断,但是由于底层特征不能充分表达人的情绪感受,很难达到较高准确度。观察到精彩事件之后会出现重放的慢镜头,我们提出了一种基于重放的精彩事件检测方法。该方法综合颜色特征和摄像机运动分析,通过镜头边界检测、重放标志识别和运动模式匹配,实现了精彩事件的自动提取。实验表明我们的方法是有效的,其中查准率达到92%,查全率达到98%,高于主观模型方法75%左右的查全率和查准率。借鉴自然语言处理的基本思想,我们研究了基于规则的体育视频分析方法,提出了一种基于文法的视频分析系统。首先,我们将视频流分解为基本的镜头序列;然后,通过事件检测,对每个镜头赋予一个语义标注形成记号序列;最后,再通过语法解析和校验,为视频生成目录层次结构。与文献中已有的视频分析系统相比,我们的系统不仅能够标注语义事件,而且能够识别出体育比赛的层次结构,更好的满足了用户的需求。基于规则方法的缺点是需要人为根据领域知识设定规则。为此,我们研究了基于统计的方法,提出了一种采用动态贝叶斯网络从数据集中自动学习知识并进行统计推理的方法。在此基础上,为了有效融合多模式信息和多层次上下文约束,我们提出了一个体育视频分析的统一概率框架。基于该框架,我们构建了三种不同的统计模型,并进行了分析比较。实验表明,通过多模式融合,我们的方法能够更好地处理体育视频中的语义事件。