视音频全局时序特征在疑似广告检测中的应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lifan_cuit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告视频作为广播电视视频中的重要组成部分,影响着人们的生活和工作方式。实现海量广告的有效管理,满足高效的浏览与检索需求,依赖于具备大型已知广告库的广告智能管理系统。传统的已知广告库的建立和更新需要人工手动选取和添加新广告,工作强度大、效率低下,无法满足快速膨胀的海量视频发展的需要。如何利用机器学习技术通过人机交互的方式完善已知广告库是视频分析领域的重点和难点问题。疑似广告检测包含广告片段检测和广告片段分割两部分,其中,广告片段检测是对视频片段进行广告视频和正常节目视频的分类,广告片段分割是将广告视频片段分割为一条条独立的广告条目。利用疑似广告检测技术自动发现视频中的广告片段并分割为独立广告段,对于视频内容的编目和检索具有重要意义。   已有的研究主要集中在视觉和听觉特征的选择上,忽视了全局时序特性的使用,在分类器的选择和融合框架上也很难满足大数据的需要。我们筛选和完善了符合国内特点的视音频特征,根据广播电视播出过程中的时序特点和统计信息提出了最小持续时长(MDC)、最大分割数目(MSC)和独立广告长度分布(DICL)三种时序特征,并采用了一个新的融合框架将视音频及全局时序特性进行融合进行疑似广告片段检测和分割。同时我们提出了一种在线学习的疑似广告检测算法,并将其与较为成熟的已知广告识别和重复性视频片段检测算法结合,构建了一套广告智能管理系统。论文主要由以下五个方面组成:   1、通过分析广告视频制作与播出过程中的结构化信息,提出了引人关注镜头和产品信息镜头两个新的语义概念。同时介绍了广告视频的时序性和持续创新性特点,并对视音频特征及全局时序特性进行了多模态分析。文章中研究了疑似广告检测中常用的视音频及全局时序特征,例如边缘变化率、镜头频率、音频场景直方图、产品信息镜头、音频场景变化检测等。分析了目前常见的多模态融合方法的优缺点,并介绍了一种新的融合框架用于疑似广告检测。   2、提出了融合视音频及全局时序特征的算法框架,并将其应用到广告片段检测中。通过将视频片段进行镜头分割,将广告片段检测问题转化为视频镜头是广告镜头还是正常节目镜头的分类问题。提出了斐波那契特征窗,充分利用当前镜头与周围镜头的视音频特征,构建了具有上下文语义信息的特征描述。利用支持向量机分类器融合视音频特征获取当前镜头的分类可能值,将其视作镜头序列的观察值。根据广播电视播出过程中的规律,提出了最小持续时长(MDC)和最大分割数目(MSC)两种时序特征,并将其作为约束条件,利用动态规划算法对上述由镜头组成的马尔科夫链进行最优分类结果搜索,获取疑似广告片段。   3、研究了视音频特征及统计信息在广告片段分割中的应用。提出了五种中层语义特征,产品信息镜头(SSPI)、颜色直方图的全局相似性(GSCH)、静音帧比率(SFR)、声学场景变化点(AECP)和独立广告长度分布(DICL),并利用支持向量机与动态规划算法结合的算法框架将其融合。首先,将广告视频片段进行镜头分割,广告片段分割问题转化为视频镜头边界是否为独立广告边界点的分类问题。对每一个镜头边界点,提取其视音频特征并扩展,利用支持向量机进行学习和预测,获取每一个镜头边界作为独立广告边界的概率值。然后,将这些概率作为以镜头边界为单元,有独立广告边界和非独立广告边界两个状态构成的马尔科夫链的观察值。最后,通过DICL约束的动态规划算法搜索最优的分割点,从而将广告视频片段切分为独立的广告段。   4、研究了在线学习的分类算法在疑似广告片段检测和分割中的应用。在大规模、长期化的广告管理过程中,广告视频具有海量性和持续创新性的特点,使得传统的离线分类器很难胜任。我们提出了一种基于在线学习和动态规划结合的算法框架,来融合视音频特征及全局时序特征进行疑似广告检测。文章中介绍了Online AdaBoost算法和基于卡尔曼滤波器的弱分类器在线学习方法,利用其对广告视频中的视音频特征进行融合,获取样本分类的可能值,然后利用含时序特征约束的动态规划算法获取最优的分类结果。通过实验对比了Online AdaBoost-DP与SVM-DP、Offline AdaBoost-DP融合框架的性能差异,并分析了在线学习算法对于大规模、长期化广告管理的实用价值。   5、提出了融合疑似广告检测算法的广告智能管理系统。构建了基于重复性检测和疑似广告片段检测结合的已知广告库初始化模块和基于已知广告识别和疑似广告片段检测与分割算法的已知广告库完善模块。通过利用在线学习算法使得模型不断的学习已知广告识别和人工审核后的数据素材,从而保持系统长期性能的稳定,使得广告智能管理系统能够解决海量数据和广告数据不断更新的难题。
其他文献
该文基于面向对象的分析设计方法,应用软件工程的概念和原理,从软件工程的角度,对连锁超市业务流程、数据流程、硬件结构、软件结构、软件实现的关键性技术的问题进行了研究,
该文首先对广义系统的基本概念、基本理论做了介绍,接着重点讨论了广义系统的输 出稳定问题和广义系统能量有限的有限制调节器问题.该文是利用几何方法对这两类问题进行探讨
电弧炉是炼钢工艺的重要设备,短网一般指的是从变压器二次侧出线端到电极(包括电极)的载流体的总称。由于短网是大电流网络,在冶炼时电流一般可以达到上万安培甚至是十万安培
该文采用系统工程的作分析方法,即围绕系统的整体性、有序性和动态性来分析风险投资,该文首先将风险投资与一般性金融投资作了比较,指出了风险投资的实质、特征、运作机理及
随着社会的进步和公路交通系统的飞速发展,交通安全已成为越来越重要的社会问题。因此智能交通系统(Intelligent Transpoit System,简称ITS)得到了广泛关注和研究。作为智能交
自然生命的诸多行为和技能是在生物个体的生长发育过程中逐渐形成和发展起来的。自然生命行为或技能的形成过程是一个认知和发育的过程。赋予机器人这种类似于自然生命认知和
该文着重探讨此类非确定多属性决策(UMADM)的理论、方法及应用,主要内容如下:(1)对MADM及UMADM的发展动态作了系统综述,评估现有典型的多属性决策方法;(2)对UMADM的不确定性
该文从系统分析的角度出发,全面系统地分析了中国工业固体废弃物产生量和主相关因素,指明今后控制废弃物产生量的方向,并对工业固体废弃物综合利用进行了经济效益分析,阐述了
毫米波雷达具有工作频带宽、分辨率高、抗干扰性能强、全天候工作的特点,在交通安全领域中有着广泛的应用前景。论文以交通安全领域毫米波雷达探测系统为背景,研究了雷达系统技
仿生机器鱼及机器海豚的研究从最初的理论分析、简单功能模仿,发展到现在开始追求真实鱼类的运动性能。本文对鱼类运动性能的三个基本方面:高效率、高机动与高游速,分别进行