论文部分内容阅读
随着人们在多媒体信息制造、存储与传播方面取得的重大技术进步,多媒体信息和数字视频已经成为日常生活中不可或缺的一部分。爆炸式增长的多媒体信息资源迫切需求自动多媒体信息分析、处理和归类技术。在这样的背景下,多媒体信息处理和检索技术成为近年来各研究机构关注的重点问题。 限于技术的局限性和有限的处理速度,建立一种通用的视频分析/处理框架是不大可能的。在宏观上看,目前国内外的研究主要集中在新闻、电影、电视剧、体育等几类视频素材的分析上。本文提出了一种新的通用镜头边界检测及关键帧提取算法,以及针对新闻中固定不变的一类镜头——口播镜头的识别算法。算法基于非压缩域处理,达到了较好的检测效果和运算速度,充分满足应用的需求。 本文提出的镜头边界检测算法融合了视频颜色的信息和运动的信息,用主色直方图描述颜色的变化,用图像块运动度描述运动的强弱,并将二者结合起来划分镜头边界。关键帧是描述镜头内容的一种有效手段,传统的关键帧提取方法基于镜头内所有帧聚类,不利于处理流式的视频信息。因此本文提出一种基于子镜头的非监督聚类算法,算法能适用于流式视频处理并不失其合理性。 口播镜头检测是新闻视频处理的一种重要的手段,不少文献都提出了自己的做法。本文提出的算法充分分析了口播镜头的规律性特征,采取了多规则融合的检测办法。算法运用了大量口播镜头规则。因此有效的减少了计算量。在P4 2.66GHz,512M的Windows XP的平台上运行本文口播镜头检测算法达到了94.7%的查全率和94.7%的查准率,处理速度为144帧/秒。