论文部分内容阅读
当今社会正处于信息时代,多种多样的信息极大地充盈并丰富了人们的日常生活,同时也为信息处理科技带来了前所未有的机遇与挑战。随着计算机技术和人工智能技术的不断进步,面向监控视频的多媒体技术研究获得了前所未有的应用前景,已经成为安防信息领域的重要发展方向之一,在公众安全、公共交通、智慧城市等多方面发挥着越来越重要的作用。与此同时,深度学习技术和神经网络技术,也在不断增加的训练数据和计算能力的加持下实现了新的突破,成为数据处理和信息理解的主流技术。因此,当监控视频中涉及到的诸多多媒体应用遇上新一代深度学习技术,面向视频监控系统的智能化处理研究领域应运而生。该领域旨在利用神经网络来模拟人脑的复杂认知功能,从而自适应地接收和处理从监控系统中获得的海量信息,提升视频监控系统对于大规模数据的表征、处理、压缩、分析和理解能力,是新一代智能化多媒体领域实现大规模应用和发展中的关键技术之一。本论文旨在大数据智能时代背景下,围绕智能监控系统,针对该系统所涉及到的一系列多媒体计算问题开展研究,重点关注了当下智能监控系统所面临的核心挑战,即“跨域问题”。所谓跨域,指的是各类监控系统应用模型能够适应不同场景,在不同环境下依然能够顺畅、稳定地为多媒体智能任务提供可靠的、正确的分析结果。具体来说,随着多媒体智能化研究的不断发展,人们对面向监控视频的智能应用的跨域自适应能力、泛化能力提出更多的要求,大家不再满足于传统监控应用仅在单一场景下表现良好,比如,某些监控分析应用模型只能支持室内场景,当将模型部署到室外就会失效,这是不能接受的。目前,对于常见的计算机视觉任务,如物体检测、场景分割、目标跟踪等,更多的智能模型开始针对多媒体应用进行相应的跨域自适应处理(Domain Adaptation),从而使得模型能够满足不同场景、不同环境的需求。但是,目前还没有专门的工作,针对智能监控中无处不在又充满特殊性的“跨域问题”进行深入的研究和探索。在这一大背景下,本论文首先针对已有的智能监控相关方法所存在的缺陷,从数据类型、应用需求和任务目标等不同层次进行探索,又考虑到针对智能监控的研究涵盖一套完整的多媒体系统,因此本论文又从整体监控系统的前端采集、数据编码、后端分析三个方面全方位地研究了当下智能监控所面临的跨域问题:(1)监控前端采集的预处理增强、(2)监控数据传输的压缩编码、以及(3)监控后端应用的智能分析。更进一步地,从全局角度出发,提升监控视频智能模型的跨域泛化能力对上述提到的三个方面都尤为重要,并且与这三方面研究互相影响、相互促进,密切不可分割,共同构建了一套完整的系统框架。最终,为了研究设计出更有效、更有针对性的智能监控多媒体技术,从而解决核心跨域问题,本论文将面向视频监控系统的智能化研究,从单纯提高模型性能拓展到更关注模型跨域自适应能力、跨域泛化能力,从而打破传统监控方法跨场景应用效果欠佳的限制,提升了新一代智能监控系统适应不同场景、不同环境的可迁移性和可扩展性。具体地,论文从以下四个方面对智能化视频监控系统进行研究,并在不同的机器智能任务中进行了实验分析和验证。(1)面向监控前端采集的跨域增强技术:针对传统图像增强技术所存在的缺陷-包括只关注合成失真、只能处理单一退化、泛化能力差、以及缺乏与下游任务的联合优化等,本文提出三种有针对性的创新改进技术,分别对应自监督真实跨域场景训练机制、基于全频域增强的混合失真处理、以及结合下游智能任务的联合优化方案,达到了在真实跨域监控场景下,也能实现令人满意的预处理增强效果,并在监控去雨、去噪、去模糊、去混合失真、图像超分辨等任务上进行了验证。(2)面向监控数据传输的跨域编码技术:针对传统启发式编码压缩技术仅考虑人眼感知而忽略机器智能的问题,本文提出了设计一种支持机器智能的全新跨域压缩编码框架,使得监控数据编码压缩后得到的码流能够直接支持多种下游智能任务,包括物体检测、分割、识别等。其核心的技术创新在于利用基于学习的视频编码机制,并引入结构化语义码流的概念,实现对监控数据的高效特征表示及压缩,并将编码技术的优化准则从人眼感知跨越到了机器任务。(3)面向监控后端应用的跨域分析技术:针对传统云端智能应用在特征提取、特征表达、特征学习方面存在的问题,本文基于监控跨域行人重识别这一典型的任务,分别从特征对齐、信息蒸馏和全局分布约束角度出发,实现了隐空间特征语义一致、多视角信息增强和无监督优化,有效地分析了智能化监控系统应用设计时所需要注意的多个方面。(4)面向整体监控系统的模型泛化技术:针对监控智能化技术泛化能力不足的问题,本文又从全局角度出发,将视频监控的研究范围从单纯提高模型性能,拓展到更加关注其跨域自适应能力、跨域泛化能力,并利用跨域自适应(Domain Adaptation)和跨域泛化(Domain Generalization)技术对模型进行优化,在不同的场景,根据模型的状态,进行适合当前环境的自适应调整。通过此方式,在包括行人、车辆重识别在内的多种监控应用中,提升模型鲁棒性,降低数据敏感性。