论文部分内容阅读
多媒体信息分析与检索是当前信息领域研究的热点之一。随着数字化技术的发展,数字多媒体资源特别是视频产品越来越丰富。多媒体具有蕴涵信息量大、直观和印象深刻等优点,已经逐渐成为网络和个人电脑上最重要的信息载体,传统的基于文本的信息检索技术很难对多媒体信息进行有效的结构化分析和快速检索。多媒体信息分析与检索通过对多媒体从低层特征到高层语义进行处理、分析的过程获取其内容并根据内容进行检索。由此可见,多媒体信息分析与检索具有重要的理论意义和应用价值。体育节目是观众最喜欢的视频之一,然而观众和体育专业人士在冗长的体育节目中很难定位其中的重要内容。视频摘要是对视频内容的概括,能够简洁表现视频的重要内容,目的在于帮助人们更快捷、更方便定位视频的重要内容,是多媒体信息分析与检索研究中的重要研究工作。基于压缩域处理可以实时生成视频摘要。为此,本论文从静态摘要、动态摘要和基于语义的摘要三个方面来讨论压缩域体育视频摘要技术,研究内容涉及交互式压缩域关键视频对象选择模型;压缩域摄像机运动估计和交互式压缩域关键帧选择模型;压缩域重放场景检测和基于重放场景的压缩域体育视频摘要;基于本体的压缩域语义体育视频摘要模型。在对现有方法分析的基础上,获得以下主要研究成果:1、提出一种开放的交互式压缩域关键视频对象选择模型。引入交互计算模型将压缩域关键视频对象选择模型扩展为基于交互计算的压缩域关键对象选择模型。将压缩域关键视频对象选择算法形式化为压缩域关键视频对象选择模型,证明该模型满足归纳法准则;用紧凑和全面策略分别表示关键视频对象间内容不相关性和关键视频对象准确表达视频信息这两种行为,将用户选择这些策略的过程形式化为交互式压缩域关键视频对象选择模型,证明该交互式模型满足余归纳法准则。交互式压缩域关键视频对象选择方法是一个开放系统,不仅可以根据不同的策略选取相应的关键视频对象,而且紧凑策略的失真率比[Kim2002]的方法低0.8%,全面策略的失真率比[Kim2002]的方法低3.8%。2、以摄像机运动参数为特征,提出一种开放的交互式压缩域关键帧选择模型。基于M估计进行外点过滤,基于极线距离约束验证去除外点的正确性,并利用BFGS方法获得摄像机运动参数的最佳估计。并以摄像机运动参数为特征,提出基于最短路径约束的最小化失真率方法和基于最小化失真率约束的最短路径方法,这两种方法分别对应紧凑和全面策略。将压缩域关键帧选择算法形式化为压缩域关键帧选择模型,证明该模型满足归纳法准则;将用户选择紧凑和全面策略的过程形式化为交互式压缩域关键帧选择模型,证明该交互式模型满足余归纳法准则。用户可以根据偏好选择不同的策略,同时,紧凑和全面策略的失真率分别比[Porter2003]的方法低8.5%和9.1%。因此交互式压缩域关键帧选择方法具有良好的开放性。3、提出一种有效的基于重放场景组织两层压缩域体育视频摘要的方法。利用压缩域的宏块、运动矢量特征进行重放场景检测,基于摄像机和颜色信息根据重放镜头检测原精彩片段,从而组织体育视频摘要。重放场景检测的查全率为91.2%,查准率为100%,而且重放场景检测算法可以识别高速摄像机产生的重放镜头,克服了[Kobla1999]方法的不