基于深度学习的视频动态模式识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dfvg43g3544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频内容理解是计算机视觉领域内一个十分重要的研究问题。在计算机视觉和机器学习领域内,对于视频内容理解的研究大致可以分为如下的几个方向:动作识别、动作检测、事件检测、视频摘要生成、视频异常检测、视频内容预测等。这些方向的研究成果和进展可以直接应用于实际场景中,比如异常事件检测的相关研究成果可以用于地铁逃票检测、火车站出入口安全检查、交通监控中的事故检测等。本毕业论文的研究范围主要集中在动作识别这个方向,因为这个方向的研究基本构成了视频内容理解各个研究领域的基础。动作识别主要是指视频的分类,现有的动作识别数据集中,提供的视频数据基本上都是切割好的短视频,每一个视频基本只包含一个动作。由于传统的处理视频的算法在准确度等各个方面都有着很大的局限性,因此,本课题尝试将深度学习的方法应用于视频理解。深度学习已经在图像的分类和检测当中取得了巨大的成功。特别是在ImageNet数据集上,卷积神经网络的分类准确度已经超过了人类。由于深度神经网络强大的表达能力,它已经被成功地应用于姿态估计、显著性检测等各项任务中去。而在视频处理当中,虽然,深度学习也取得了一定的成果,但是现有的工作仅仅是将深度网络十分粗暴地移植到视频任务当中,而并没有考虑视频数据特有的时空相关性。本文探究深度学习在视频当中的应用,研究的内容包括如何用深度网络提取更好的特征用于视频相关的任务如视频分类和事件检测,同时也会探究怎样的网络结构可以在动态模式识别当中取得更好的准确度。本文主要提出了以下两个可以用于视频的动作识别的算法:(1)本文提出了将LCD(Latent Concept Descriptor)编码方法和Twostream CNN结合的思路,同时对LCD进行了多分辨率上的拓展,提出了mLCD(Multiresolution Latent Concept Descriptor)算法。该算法对Two-stream CNN的最后一层卷积层用VLAD进行编码,然后用SVM进行最后的视频分类。(2)本文提出了TCNN(Temporal Convolution Neural Network)的算法用于处理视频的时空信息,该算法的基本思路是先用Two-stream CNN对视频中的每一帧图像进行特征提取,然后将视频中连续一定帧数的图像特征拼接成一张新的图,然后用一个CNN对这个图像进行分类。相比于LSTM,该模型可以在视频动作识别任务上取得更好的效果。本文在公开的数据集Hollywood2、Olympic Sports和UCF101上对我们的算法进行了大量的实验,实验结果表明,在Hollywood2和Olympic Sports这两个数据集中上,mLCD的准确度基本和学术界最好的算法接近。在UCF101上,TCNN的准确度虽然和最好的算法有一定的差距,但是我们的实验结果证明了这个算法的有效性。
其他文献
高质量的图像输出是天文研究的重要内容,在明安图频谱射电日像仪(MingantU SpEctral Radioheliograph,MUSER)成图过程中,由于太阳圆盘偏离视场中心导致最终成图质量不高、脏图洁化过程中没有使用原始脏图中的统计信息而造成了大量迭代的时间开销以及没有对异常数据剔除后进行检验,导致数据处理系统不够完善。本文重点研究了一种基于统计的日面亮度模型,更加高效地计算出MUSER原始
在时分双工(Time Division Duplexing,TDD)的无线通信系统中,有非常重要的一种特性称为信道互易性。该特性的基本思想是,在信道相干时间内,基站(Base Station,BS)对接收的信号进行上行信道状态信息(Channel State Information,CSI)估计,并且可以认为该估计出来的信息与下行信道状态信息是一致的,由此可以为下行传输确定方法。但是,实际信道是由
许多复杂的工程过程都可以建模为耦合双曲型偏微分方程(PDE)与常微分方程(ODE)的分布参数系统。由于分布参数系统状态空间的无穷维特性及系统本身的复杂性,以及系统不可避免地存在不确定性和扰动,这使得控制分析与设计更加复杂。因此,研究耦合双曲型PDE-ODE分布参数系统控制具有重要的理论价值和实际意义。本文中考虑一类具有分布参数的双曲耦合系统,选取相互连接的连续搅拌釜式反应器(CSTR)和平推流反应
近年来,随着海洋环境监测、科学数据采集、海洋防灾等领域的不断探索,传统水下通信方式如水声通信(UAC,Underwater Acoustic Communication)等,已不能满足现有水下通信对高速
随着无人机在军事、农业、航拍和救灾等领域的广泛使用及其产业的蓬勃发展,无人机通信网络的低空空域频段越发拥挤,频谱资源变得越发珍贵,资源短缺问题日渐突出。因此,本文主要研究无人机网络中频谱感知技术,以期通过高效感知为无人机网络发现频谱空洞,缓解资源短缺问题。本文考虑同质和异质无人机网络两种场景,分别提出基于分簇及频谱预测的分布式协作感知方案,以提高无人机网络中频谱感知精度,发现潜在频谱重用机会,提升
群智能优化算法由于具有实现简单、收敛速度快、鲁棒性高等优点,已被广泛运用于经济、工程等各个领域。然而早期的群智能优化算法往往存在易早熟收敛、种群多样性缺失、收敛精度差等问题,尤其是求解多峰函数及复杂函数时,算法往往难以兼顾种群多样性和收敛精度。因此,本文在前人研究的基础上,针对群智能优化算法的早熟收敛问题,将动态多种群策略分别与粒子群算法(Particle Swarm Optimization,P
近年来,传统彩电行业都向着智能化发展,而随着人工智能发展的不断提升,通过人工智能技术提升电视智能化水平成了智能电视发展的一种重要方向。正是在如此的环境下,将智能电视显示的文本内容进行摘要生成并语音播报这样的功能被提出。本文主要叙述了智能电视文本内容的摘要生成及语音播报功能的设计与开发。首先对作为核心功能的摘要生成与语音合成进行技术研究与分析,确定了以深度学习为基础的功能实现方向,然后对现有基于深度
随着世界资源的日益枯竭和环境污染的愈发严重,高效的利用资源已成为当前世界的一大趋势.再制造由于能使装备全寿命周期呈现闭合状态而得到极大的重视.而作为再制造重要手段之一的激光再制造技术也得到了进一步的发展。而当前在非规则形体零件的激光再制造上往往存在着成本高昂、操作复杂等特点,为了降低非规则形体零件激光再制造的成本,提高激光再制造系统的灵活性。本文通过对非规则形体零件的激光再制造工艺进行研究,提出了
近年来,草场退化现象不断加剧,严重影响了生态平衡和可持续发展,而黄花棘豆作为主要的草原毒害草之一,由于其自身极强的抗逆性和适应性而广泛蔓延。本课题前期对黄花棘豆在3种逆境胁迫(ABA,NaCl和PEG)处理下的转录组数据分析显示ABF2类转录因子可能参与黄花棘豆的抗逆反应,但其调控机理仍不清楚。因此,本研究以前期工作为基础,以黄花棘豆转录因子OoABF2为切入点,对其上游互作进行蛋白筛选与鉴定,为
航空航天、车载系统等高精度控制系统的发展,对可靠性强、实时性强的综合信息通信网络提出了更高的要求。TTE在传统以太网的基础上,严格依照时间调度表规划数据传输通道,为网络中的业务提供一种无冲突的、确定性的数据传输方式,它将时间触发传输的实时性、确定性、容错能力等特点与传统以太网的灵活性、动态性等特点相结合,可支持各种不同类型的应用业务,被广泛应用于航空航天、车载总线和工业控制现场。在研究和改进TTE