论文部分内容阅读
视频/图像分析一直是计算机视觉领域的热门课题,其理论与应用研究受到广泛关注。人们对视频数据的认识归纳是有层次性的,根据电影的制作过程,它自顶向下可分为电影,故事单元,场景,镜头和帧。由此可以看出,帧是视频的最小组成单元。所以,视频镜头边界检测是进行视频内容分析的首要步骤,是基于内容的视频检索中更高一级的语义、内容分析的基础。 本文在总结分析现有的镜头边界检测技术,目前镜头转换检测算法主要为阈值法,阈值法的关键在于依靠经验人工选择阈值的方法,实质上是将视频边界特征与非边界特征线性化,难以找到合适所有视频数据通用的阈值,不利于实现镜头边界的自动检测。而文献提出了神经网络算法把视频帧场景进行训练学习,但它类似一个黑箱,缺少透明度,不能很好地表达人脑的推理功能。而模糊推理分析能客观地反映现实世界。但单纯的模糊推理无法让系统进行自学习。本文在神经网络的基础上加入模糊推理,提出了一种基于自适应模糊推理(ANFIS)的镜头检测方法。它融合了神经网络的学习机制和模糊系统的语言推理能力等优点,弥补各自不足。由于多媒体视频快速发展,视频数据出现了很多不规则的视频边界变化,为视频边界检测带来了不方便,并且也不能忽略这些特殊变化的边界。然后ANFIS系统训练误差总是在7%左右,无法再有新的突破。因此,必须加入不规则的情况,必须涉及到系统自学习的人工智能过程。 本文提出一种新的镜头边界检测方法。该方法首先提取合适的视频图像特征量,在传统的灰度帧差,直方图的基础上,加入二值信息特征分析。然后通过多次对视频数据进行自适应的模糊推理训练,最后找到合适的模糊规则以及适当补充不规则现象,让系统更好地进行自学习,从而能更准确地实现边界的检测,查准率和查全率达到95%左右。