论文部分内容阅读
随着多媒体技术的发展,数字视频得到广泛应用,对这些数据量巨大而且内容丰富的视频进行查询和检索的需求也日益增强,基于内容的视频检索(CBVR)技术也应运而生。视频镜头分割,又叫时域视频分割,是建立CBVR系统的第一步,具有非常重要的意义。首先,镜头是视频的基本单位,是视频抽象和更高层次视频分割的基础。其次,镜头转变的类型为识别视频的高层次语义提供依据。
由于视频镜头分割技术的重要性和基础性,很多学者都在该领域上作出研究。他们有的研究了视频特征在各种镜头转变时的规律,使用各种规则检测镜头边界;有的学者则采用机器学习的方法,让学习器去掌握各种复杂规则,使之能准确地对镜头转变做出检测。
与传统的使用单个学习器的机器学习方法不同,集成学习通过建立一系列学习器,然后采用某种形式把这些学习器的预测结果进行集成,以预测未标记示例的类型。集成学习往往能够得到比单个学习器更好的效果。
本文提出了一种基于集成学习的视频镜头分割技术——TVSEL算法,将集成学习的原理应用到视频镜头分割领域。在TVSEL算法中,首先提取视频帧的各种特征;然后使用本文提出的有偏组交叉重采样策略,建立起多个训练子集,由这些训练子集分别建立基础学习器;接着使用简单投票或加权集成等方法,把各个基础学习器的分类结果集成,行成最终分类结果:最后通过本文提出的渐变还原规则,把被分类的镜头转变视频帧还原成镜头转变。
本文设计了一系列实验,调整了TVSEL算法的多个参数,比较了TVSEL算法的各种结果集成策略,并与多种机器学习算法作对比。实验结果表明,相对于单学习器算法,基于集成学习的TVSEL算法具有明显的优势;由于采用了有偏组交叉重采样技术,TVSEL算法在训练时间上比其它集成学习算法更加优胜。