论文部分内容阅读
随着多媒体技术和网络技术的迅猛发展,巨量的图像和视频信息以各种编码形式不断涌现,使得有效的图像和视频检索变得日益重要.为此,在信息学科形成了一个全新的研究领域,即基于内容的视频分析与检索技术(Content-Based Video Analysis and Retrieval,CBVAR).CBVAR是指在视频分析的基础上,提取能够反映视频内容的各种特征,进而通过模式匹配从海量视频数据库中检索出相关的视频流.视频中的内容包括视频的结构信息、低层次的视觉和听觉信息以及高级语义信息,所有这些是后续编辑和理解的基础.怎样将这三种信息有机的综合起来,形成通用的视频分析与检索模型,目前仍然是该领域一个极富挑战性的课题.该文正是在结合MPEG-7标准的基础上,针对通用视频分析检索模型研究的有益尝试.其主要研究内容和工作包括:a)在分析视频数据管理的特点及难点的基础上,建立一种和MPEG-7标准兼容的通用视频数据模型.该模型描绘了从帧、镜头、场景到故事单元的结构化层次,并引入关键帧等概念分别描述每个层次的视频特征.相应的结构,构成了后续处理的框架;b)介绍了几种典型的镜头变换的原理及对应的检测方法,然后着重分析并比较了多种不同的镜头检测算法及其性能.提出了一种改进的自适应镜头检测算法,用来同时检测突变和渐变,进而还给出了一种简单有效的从镜头中提取关键帧的方法.最后,详细分析了基于DC 图像和运动参数的压缩域镜头检测方法;c)提出了一种时-空融合的镜头相似性判断规则,用于将镜头聚类为场景;同时,还给出了通过模糊聚类实现场景中关键帧自动提取的方法.进而,讨论了由场景中一组镜头的关键帧的质心表示场景关键帧,即场景质心的方法,从而为抽取高层的视频数据单元做出了大胆的尝试;d)从给定样本视频出发,分别讨论了基于镜头和场景的视频检索方法,并分析了检索性能评价的准则.进而,设计并实现了MPEG压缩视频裁剪与拼接功能,大大拓宽了视频检索在网络化方面的应用.