论文部分内容阅读
视频信息分类检索是多媒体研究领域中的重要课题。对海量的非结构化的视频数据如何有效组织、表达、管理、查询和检索,使用户能够快速得到所需要的视频信息,日益成为人们的迫切需要。传统的视频信息检索方案因不能自动、客观、全面地概括视频的内容,已越来越不能满足信息技术发展的需要。20世纪90年代开始的基于内容的视频检索CBVR(Content-based Video Retrieval)的研究,因尚未有效“填平”视频低层特征和高层抽象概念之间存在的“语义鸿沟”(Semantic Gap),使得目前CBVR还难以适用于普通用户。进一步说,目前基于内容的视频检索的语义处理理论和技术仍有大量问题有待深入研究。 由此,本文对基于内容的视频检索语义信息提取过程中的若干问题进行了探讨。总体思路是:首先对视频语义处理理论框架进行设计和分析;然后在此基础上对语义处理技术进行具体研究;进而针对不同的视频内容提出若干语义信息提取的算法;最后设计开发一个基于语义的视频分析检索原型系统。 取得的主要成果及创新点是: 1、为解决“语义鸿沟”这一关键且基础性问题,提出了一个多层次的面向对象的视频语义描述模型,并在此基础上架构了一种基于多种语义来源的语义提取框架,为后续视频语义处理技术的研究提供理论指导。 2、以体育视频为主要研究对象,对基于模式分类的视频语义处理技术进行了研究,主要包括: (1)通过对球类比赛进行主色确定、场地分割,提取场地颜色、纹理、空间比例、运动纹理及摄像机短时运动等特征,在此基础上用ICA和SVM对各种球类运动进行特征优化和分类,取得了较好的效果。 (2)针对足球视频,根据其制作的特点,分别提出了基于图像颜色和空间特征并结合先验知识的镜头分类算法、基于慢镜头制作模式及帧差序列分析的慢镜头检测算法及基于场地线提取分析的禁区场景辨识算法等,进而根据足球视频编辑模式对射门等足球比赛精彩事件进行了辨识,均取得了较好的实验效果。 (3)针对摄像机运动问题,根据运动模式短时一致假设,提出了一种基于视频短时时空切片结构张量分析的摄像机运动定性分析方法,收到较好的效果。 (4)针对WIPE镜头编辑检测问题,从分析数据、结构元定义、能量计算、定位方