论文部分内容阅读
当今的网络时代是属于多媒体的时代,互联网上充满着各种多媒体数字内容,包括文本、音频、图像、视频等。特别是图像和视频,随着带有各类摄像头的高速移动设备的普及,逐渐成为互联网用户之间一种全新的沟通交流方式。这种趋势促使了多媒体理解核心技术和相关应用的广泛发展。其中,特征学习是这些技术成功的一个重要突破口。特别是卷积神经网络(CNN)的成功证明了这一点,基于卷积神经网络的视觉特征在不同应用场景下表现出极强的学习和泛化能力。例如,最新提出的残差网络学习到的图像特征已经成功地突破了以往许多图像理解任务的极限,在每个任务上的性能均有显著提升。然而由于视频内容具有较大的差异性和复杂性,提取功能强大且通用的时空特征仍然具有较高的挑战性。现有的视频应用大多依赖于图像级别的特征,独立地对每一帧执行二维卷积,该做法并不能充分利用连续帧之间的连续时空变化。由于视频内容理解通常与时空动态变化有很强的关联,建立统一的视频时空特征学习框架是至关重要的课题。为了实现这一目标,本论文从视频专用的神经网络结构(如三维CNN)出发,研究如何设计并引入新的网络结构,包括伪三维模块、卷积特征量化模块、局部-全局传播模块以及网络结构自动设计框架,使得神经网络具备强大的时空特征学习能力。本论文包含以下几个创新点:(1)在残差学习的基础上设计了多个不同的伪三维模块,结合空间域上的二维卷积滤波器和时间域上的一维卷积滤波器来模拟时空三维卷积,从而在较低额外代价的情况下,同时建模时间和空间信息。此外,本文还提出了一种新的网络结构,即伪三维残差网络,通过在残差网络的不同层使用不同的伪三维模块来增加网络结构的多样性从而提高深度神经网络的学习能力。在大规模Sports1M数据集上的实验表明,本文提出的网络结构比传统三维CNN和二维残差网络分别带来5.3%和1.8%的准确度提升。同时,本文还进一步研究了预训练的伪三维残差网络在三个不同任务的五个数据集上视频时空特征的泛化能力,并展示出优于几种最新视频特征的性能。(2)提出了一种全新的基于局部-全局传播的时空特征表示学习框架。该网络结构由堆叠的局部-全局传播模块构成,可以并行地学习局部和全局特征表达。每个传播模块通过两种特征之间的相互影响来更新局部特征与全局特征。在此基础上,本文还提出了一种基于核函数的分类器在网络的末端结合局部特征与全局特征来学习更强大的视频特征表达。在大规模的动作识别数据集Kinetics-400与Kinetics-600上,局部-全局传播网络取得了明显的性能提升,分别比最好的竞争方法提高了 3.5%与0.7%。本文还进一步研究了预训练的局部-全局传播网络特征在视频动作识别和时空动作检测任务上的泛化性,并在四个相关的数据集上均得到了优于现有方法的性能。(3)在可微分结构搜索的基础上,提出一种新的结构自动搜索方法。该方法在连续搜索空间中通过梯度下降进行优化,从而可以高效地为视频数据针对性地自动设计网络结构。具体来说,本文提出了基于时间表的可微分结构搜索算法,根据预先设定的时间表,有计划地逐步确定网络中的操作与连接方式。此外通过在候选操作集中加入多种全新设计的三维操作,有效扩大了该方法的搜索空间,并验证了搜索机制对不同操作的处理能力。通过在Kinetics-10、UCF101和HMDB51数据集上的大量结构搜索实验,本文验证了提出的方法性能稳定地优于标准的可微分结构搜索,且同时仅需要大约一半的搜索时间。当把小规模Kinetics-10数据集上搜索得到的网络结构应用在大规模的Kinetics-400数据集上时,自动设计得到的网络结构也表现出良好的可迁移性并超过了手工设计网络的性能。