论文部分内容阅读
广告视频作为广播电视视频中的重要组成部分,影响着人们的生活和工作方式。实现海量广告的有效管理,满足高效的浏览与检索需求,依赖于具备大型已知广告库的广告智能管理系统。传统的已知广告库的建立和更新需要人工手动选取和添加新广告,工作强度大、效率低下,无法满足快速膨胀的海量视频发展的需要。如何利用机器学习技术通过人机交互的方式完善已知广告库是视频分析领域的重点和难点问题。疑似广告检测包含广告片段检测和广告片段分割两部分,其中,广告片段检测是对视频片段进行广告视频和正常节目视频的分类,广告片段分割是将广告视频片段分割为一条条独立的广告条目。利用疑似广告检测技术自动发现视频中的广告片段并分割为独立广告段,对于视频内容的编目和检索具有重要意义。
已有的研究主要集中在视觉和听觉特征的选择上,忽视了全局时序特性的使用,在分类器的选择和融合框架上也很难满足大数据的需要。我们筛选和完善了符合国内特点的视音频特征,根据广播电视播出过程中的时序特点和统计信息提出了最小持续时长(MDC)、最大分割数目(MSC)和独立广告长度分布(DICL)三种时序特征,并采用了一个新的融合框架将视音频及全局时序特性进行融合进行疑似广告片段检测和分割。同时我们提出了一种在线学习的疑似广告检测算法,并将其与较为成熟的已知广告识别和重复性视频片段检测算法结合,构建了一套广告智能管理系统。论文主要由以下五个方面组成:
1、通过分析广告视频制作与播出过程中的结构化信息,提出了引人关注镜头和产品信息镜头两个新的语义概念。同时介绍了广告视频的时序性和持续创新性特点,并对视音频特征及全局时序特性进行了多模态分析。文章中研究了疑似广告检测中常用的视音频及全局时序特征,例如边缘变化率、镜头频率、音频场景直方图、产品信息镜头、音频场景变化检测等。分析了目前常见的多模态融合方法的优缺点,并介绍了一种新的融合框架用于疑似广告检测。
2、提出了融合视音频及全局时序特征的算法框架,并将其应用到广告片段检测中。通过将视频片段进行镜头分割,将广告片段检测问题转化为视频镜头是广告镜头还是正常节目镜头的分类问题。提出了斐波那契特征窗,充分利用当前镜头与周围镜头的视音频特征,构建了具有上下文语义信息的特征描述。利用支持向量机分类器融合视音频特征获取当前镜头的分类可能值,将其视作镜头序列的观察值。根据广播电视播出过程中的规律,提出了最小持续时长(MDC)和最大分割数目(MSC)两种时序特征,并将其作为约束条件,利用动态规划算法对上述由镜头组成的马尔科夫链进行最优分类结果搜索,获取疑似广告片段。
3、研究了视音频特征及统计信息在广告片段分割中的应用。提出了五种中层语义特征,产品信息镜头(SSPI)、颜色直方图的全局相似性(GSCH)、静音帧比率(SFR)、声学场景变化点(AECP)和独立广告长度分布(DICL),并利用支持向量机与动态规划算法结合的算法框架将其融合。首先,将广告视频片段进行镜头分割,广告片段分割问题转化为视频镜头边界是否为独立广告边界点的分类问题。对每一个镜头边界点,提取其视音频特征并扩展,利用支持向量机进行学习和预测,获取每一个镜头边界作为独立广告边界的概率值。然后,将这些概率作为以镜头边界为单元,有独立广告边界和非独立广告边界两个状态构成的马尔科夫链的观察值。最后,通过DICL约束的动态规划算法搜索最优的分割点,从而将广告视频片段切分为独立的广告段。
4、研究了在线学习的分类算法在疑似广告片段检测和分割中的应用。在大规模、长期化的广告管理过程中,广告视频具有海量性和持续创新性的特点,使得传统的离线分类器很难胜任。我们提出了一种基于在线学习和动态规划结合的算法框架,来融合视音频特征及全局时序特征进行疑似广告检测。文章中介绍了Online AdaBoost算法和基于卡尔曼滤波器的弱分类器在线学习方法,利用其对广告视频中的视音频特征进行融合,获取样本分类的可能值,然后利用含时序特征约束的动态规划算法获取最优的分类结果。通过实验对比了Online AdaBoost-DP与SVM-DP、Offline AdaBoost-DP融合框架的性能差异,并分析了在线学习算法对于大规模、长期化广告管理的实用价值。
5、提出了融合疑似广告检测算法的广告智能管理系统。构建了基于重复性检测和疑似广告片段检测结合的已知广告库初始化模块和基于已知广告识别和疑似广告片段检测与分割算法的已知广告库完善模块。通过利用在线学习算法使得模型不断的学习已知广告识别和人工审核后的数据素材,从而保持系统长期性能的稳定,使得广告智能管理系统能够解决海量数据和广告数据不断更新的难题。