论文部分内容阅读
随着人类社会的不断发展,各类视频数据呈现爆发式增长。视频数据在采集上表现出超高清化的趋势,在处理上越来越偏重智能化和多业务融合,这给传统的前端采集原始数据结合云端融合分析的流程带来了巨大的存储、传输和处理的挑战。在这样的背景下,“智能前置”的理念应运而生,旨在通过对前端设备的智能化程度进行升级,完成关键数据的提取和归纳,从而提高数据的表达能力和结构化程度,对于视频数据处理具有重要的实际意义。 对于智能前置场景,目标抽取和视频浓缩是关键的视频数据分析技术,而模型压缩是在受限场景进行模型部署的重要手段。本文从目标抽取、视频浓缩和模型压缩三个关键技术出发,针对存在的局限性问题,研究并设计了新的模型和算法,为实现高效、稳定、精简的视频线索归纳框架提供了技术支撑。 目标抽取是视频线索归纳的基础,其作用在于对不同目标进行区分并筛选出感兴趣的对象,从而有效减少前端场景需要进一步传输给后端处理的数据。本文针对不同目标分类难度的差异,提出了结合决策树和深度网络多层抽象表达的方案。该模型利用不同层之间的特征来构造决策树,在树深较浅的地方选择偏向语义表达的深层特征进行分裂,而在树深较深的地方选用偏向细节的浅层特征进行分裂,从而对不同难度的目标分类使用不同的特征组合来对待。此外,不同于传统的基于局部像素差异的显著性度量,本文还提出了多个比对卷积神经网络级联的方法,由全局到局部地从语义角度比较目标的显著性。 视频浓缩通过提取关键帧,为视频线索归纳提供了一种精简的表达形式,可以进一步提升前端场景中归纳的数据价值。对于长视频,视频浓缩包括视频片段分割和关键帧提取两个过程。该问题的主要困难在于中间帧(转折帧)在分割时带来的歧义性以及关键帧提取的效果缺乏客观评价。本文从视频中动作语义的角度进行视频浓缩,针对视频片段分割中歧义性的问题,提出了结合时间约束性的多实例学习训练动作分类器的方案,进而根据动作解析的结果将长视频分割为片段。针对关键帧缺乏客观真实值的问题,本文设计了联合视频分类任务来引导关键帧提取过程的思路,通过客观的视频分类效果来迭代更新关键帧的提取结果,从而更好地对视频片段进行表达。 在智能前置场景中,将目标抽取、视频浓缩及相关算法模型直接部署到资源受限的前端设备上是困难的,特别是在目前主流的模型常常采用大量耗费算力的深度模型框架的情况下。当前的深度模型压缩策略存在一些局限性,比如受限于原始模型结构、依赖底层运算库和特殊硬件的支持以及压缩目标比较单一等。针对这些现状,本文提出了基于生长式族群的定制化模型压缩框架,通过总结主流深度网络结构设计上的精髓,定义了多个提升网络结构能力的增强操作。从预定义的原始基础模型结构出发,在待压缩模型的引导下,对基础模型结构进行迭代增强和重训练,并综合性能、前向时间、大小和结构性四个方面定义了适应度去评价增强后的模型对原始模型的模拟能力,从而选择符合不同适应度的模型,实现灵活的模型压缩。 对于上述的模型及算法,本文进了相应的实验验证和比较分析。实验结果表明,本文提出的关键技术提升了目标抽取的显著性、视频浓缩的有效性和模型压缩的灵活性,并减轻了应用的局限性。