基于时间分割网络的视频行为识别研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:jingchengyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于视频行为识别在视频监控、行为分析等领域的广泛应用,最近几年引起了学术界的广泛关注。面对视频的尺度变化、视角变化和相机移动等问题,如何设计出能够描述行为信息的有效特征显得至关重要。随着深度学习技术在图像领域的成功应用,很多深度学习方法被扩展到视频行为识别中。但是相对于图像,视频中包含的时序结构信息对于行为识别至关重要。针对长时时序建模,本文着重研究了时间分割网络(Temperal Segment Network,TSN)的非修剪视频处理、时序信息补充以及光流实时构造三个方面的问题。本文主要工作如下:1.对视频行为识别任务的相关工作进行了综述和回顾,分别介绍了几种典型的人工行为特征表示和深度学习行为特征表示方法,着重分析了其视频时序结构建模的思路。2.介绍了行为识别著名的深度学习框架TSN并针对非修剪视频的预测提出了一种多尺度滑动窗口集成方法。在原始双流卷积神经网络(Convolutional Neural Network,CNN)的基础上,TSN通过分割稀疏采样和信息聚合对视频长时时序结构进行建模,可以很好地表达长时时序结构信息。针对非修剪视频的预测,本文提出了多尺度滑动窗口集成方法,通过多尺度覆盖和Top-K池化可以很好定位行为以及抑制背景的影响。实验结果表明,本文提出的多尺度滑动窗口集成方法可以有效对非修剪视频进行预测。3.提出了四流TSN网络。为了进一步刻画视频动态变化信息,本文基于动态图像对时序变化的表达能力,构造了四流TSN网络。动态图像将包含于视频所有帧间的运动信息表示为单个RGB图像,是一个高效且简单的视频表示,对于深度学习算法特别有效。因此本文在原有的静态图像和光流基础上,通过动态图像分别对其处理生成动态图像和动态光流两个新的流。实验结果表明,新增的两个流与原来的两个流性能上相互补,可以带来准确率的提升。4.提出了实时TSN网络(Real Time TSN,RT-TSN)。针对原始TSN光流计算时间长以及存储需求大的缺陷,本文首先基于无监督光流学习法构造光流网络,然后将光流网络叠加到TSN框架的时间流网络,由此形成的RT-TSN不仅可以端到端训练,还可以实现实时预测。实验结果表明,RT-TSN在损失极小精确度的同时提升了TSN的速度。
其他文献
近年来,阜阳市在中央、省、市的统一领导下,结合当地实际,狠抓基层组织建设,不断改革创新,进行大胆尝试,加强组织领导,注重人才培养,强化制度管理,引入竞争机制,加大资金投入
随着国民经济的发展,生产性服务业地位日益重要,而目前我国生产性服务业发展面临各种问题,其中潜在需求巨大而有效需求不足的问题更为迫切。本文基于我国三次产业对生产性服
随着金融信息化的深入发展,信息风险管理成为金融风险管理不可忽略的重要组成部分。本文分析和论述了金融风险管理的重要性和我国金融信息风险管理存在的问题,并从建立金融信
随着国家对房地产业的宏观调控力度越来越大,房地产市场发展逐渐回归理性,加之市场竞争的愈发激烈,房地产企业的利润逐渐缩小。在激烈的市场竞争环境中,如何使企业快速发展,
目的通过建立体外Caco-2细胞模型研究黄芩苷(BA)及其固体脂质纳米粒(SLN)的吸收特性。方法利用CCK-8法、LDH法筛选BA及BA SLN在Caco-2细胞单层模型的合适浓度。采用高效液相色谱
针对山地城市传统工业基地走向衰弱,大量的产业建筑被抛弃、闲置带来的一系列环境问题、社会问题。论文以绵阳市朝阳厂工业遗产保护改造项目为实际案例,从生物学的"共生"理论
<正>随着互联网金融的逼近,国内第三方支付平台交易量越来越大,以互联网为代表的现代信息技术正在倒逼金融业做出深刻的变革,对银行的传统支付业务产生极大的冲击。尤其对技
青年教师是高职院校教师的生力军。根据高职院校青年教师职业生涯发展特点,着重探讨了其职业发展的瓶颈以及学校和个人在高职院校青年教师职业生涯规划中的角色定位,从而实现青