论文部分内容阅读
数字视频属于国家重点发展的信息产业领域,随着宽带网络和数字电视的迅速发展,视频点播、交互电视、视频网站等应用需求将越来越广泛,这些应用都将共同面临大量涌现的数字化视频数据。但线性的、非结构化的视频数据形式往往使得视频浏览效率非常低下。视频摘要技术就是在这种情况下诞生的,该技术的结果是对原始视频主要内容的概括,对基于视频的各种应用具有广泛的意义。
本文在综合分析已有的基于内容的视频摘要方法的基础上,提出基于改进的蚁群算法与凝聚相结合的关键帧提取方法、基于语义的视频场景检测方法以及基于时空特征融合的视觉注意模型的场景摘要生成方法,并设计实现相应的原型系统。具体内容如下:
(1)提出改进的蚁群算法与凝聚相结合的关键帧提取方法。该方法先通过改进的蚁群算法自组织地形成一个初始聚类,再对初始聚类结果执行凝聚算法,优化初始聚类结果并加快算法收敛,最终提取代表整个镜头内容的关键帧。从而有效地解决传统聚类法提取关键帧时对初值敏感、容易出现早熟和需利用先验知识来确定聚类类别数等问题。
(2)提出一种基于语义的视频场景检测方法。该方法首先提取视频帧的多个底层特征,并对其进行核函数级的线性加权处理,然后利用支持向量机(SVM)对处理后的特征向量进行语义分类预测,生成镜头的语义概念矢量,最后根据语义概念矢量对镜头聚类得到场景。从而克服了传统场景检测中只采用视频底层特征而不考虑视频高层语义的问题,并较好地实现了场景检测。
(3)提出基于时空特征融合的视觉注意模型的场景摘要生成方法。将时空特征融合的视觉注意模型引入到场景摘要生成过程中,提取镜头的空间域显著度和时间域显著度,将空间域显著度和时间域显著度进行结合得到镜头的视觉注意度;同时,考虑镜头的持续时间,提出镜头的持续度,并将镜头的视觉注意度和时间持续度加权求和,得到镜头的重要度。根据镜头重要度的大小选出场景中重要的镜头,通过把重要镜头的关键帧按时序排列输出,生成代表场景主要内容的场景摘要。
(4)采用面向对象思想设计并开发场景摘要生成的原型系统。该系统包括镜头边界检测,关键帧提取,场景检测,场景摘要生成等功能模块。并通过实验对比验证上述方法的有效性。