基于递归神经网络的视频行为建模和识别方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 6次 | 上传用户:hh227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,对视频中的行为建模和识别一直是计算机视觉研究中的热点和难点。由于递归神经网络,特别是长短时记忆网络,在机器翻译等领域的突出表现,利用递归神经网络对视频进行序列建模成为主流方法之一。但在较早的研究中,直接利用递归神经网络对视频帧的高层特征序列建模,并没有取得预想中的卓越效果。这主要是由于与一般的序列数据不同,视频数据具有自己的特点:一,视频数据本身具有维度高、语意结构复杂等诸多特点。具体到行为识别,视频中部分行为的判别存在歧义性,对上下文信息存在依赖性。二,视频数据序列中的单帧信息结构性弱、相邻帧信息冗余大。这两个方面的特点都极大得增加了利用递归神经网络进行建模的难度。针对视频数据的特点,结合递归神经网络的特性,我们对视频中的行为识别任务,分别设计了递归时空注意力网络和递归姿态注意力网络,来提高递归神经网络对视频行为的建模能力。并在公开数据集上对方法进行了测评,验证了方法的有效性。在本论文的第一部分,针对视频数据的特点一,我们提出了递归时空注意力网络结构。从而支持递归神经网络对每个时刻进行预测时,除了利用高层序列特征之外,可以从整个帧序列中,自适应得找到与当前特征具有强互补作用的中层特征。通过利用全局的多层的互补信息,从而增强了递归神经网络的建模能力。同时,为了利用图像表观信息和运动信息的互补性,我们还提出了注意力引导的表观流-运动流融合机制。我们在公开数据集UCF101,HMDB51和JHMDB上进行了方法验证。在前两个数据集上取得了优于其他基于递归神经网络的方法,在JHMDB数据集上取得了当前最好的结果。这部分工作,已经在IEEE Transactions on Image Processing(TIP)2017 发表。在本论文的第二部分,针对视频数据的特点二,结合姿态与行为的密切关联性,我们提出了递归姿态注意力网络结构。在该结构中,通过利用姿态信息对注意力热图进行监督,从而得到与姿态相关的姿态特征,以实现对单帧信息的“结构化”,有利于更加有效的模型训练。该结构在行为识别的同时,还能对视频中的姿态进行粗估计。我们在公开数据集Penn Action,Sub-JHMDB上进行了方法验证。在两个数据集上均取得了当前最好的效果。这部分工作,已经在IEEE国际计算机视觉大会(ICCV)2017发表,并在大会进行了口头(oral)报告。
其他文献
本文研究了石油化工污水J、N及厂区自来水S对小鼠子一代(F_1)和子二代(F_2)体细胞和性细胞的遗传毒性。结果表明,亲本自由饮用四周后,F_1及F_2骨髓细胞微核频率与对照组比较
随着我国教育体制改革的深入,培养全面型高素质人才已经成为教育发展的重要目标。体育教学在完成体育基础知识、基本技术、基本技能等体育任务过程中,把情感教育有目的地注入到
混凝土作为一种建筑材料,具有取材容易、合理用材、耐久性较好、耐火性好及可模性好等诸多优点,而被广泛运用于建筑工程、桥梁工程、水利工程及交通工程。混凝土在施工过程中
用高脂饲料饲喂昆明小鼠造成高脂血症,同时加喂定量的市售芦笋罐头制品,观察芦笋对动物实验性高脂血症的影响。结果表明芦笋可以抑制血脂及肝脂的上升、并对高脂血症动物有一
高校体育科学研究就是以高校体育教育现象和体育教育问题为对象,运用科学研究的原则和方法,探寻体育教学规律及体育教育途径和方法的科学实践活动。努力提高高枝体育教师的体育
数字图像相关法(DIC)由于具有非接触、全场、精度高、易操作等特点,已被广泛应用于宏微观尺度的变形测量。在微观尺度,DIC可以方便地与显微镜结合,实现变形测量;散斑作为变形
根据在兰州西固石油化工区,北京燕山石油化工区,北京地区和广州地区开展的光化学烟雾研究,讨论我国城市光化学烟雾的污染状况及其污染特征,探讨光化学烟雾的形成机制,并预测城市光
电网络解的存在唯一性问题是一个十分重要的网络基础理论问题。对正元件组成的线性常参量互易网络,本文证明,解存在且唯一的充要条件是纯电压源不构成回路,且纯电流源不构成
技术能力是战术发挥的基础。好的篮球技术应包含好的篮球意识。有了好的意识基础,好的技术才能得到合理运用。正确理解篮球技术与篮球意识的关系,对青少年篮球训练有重要意义。
提示:三部委联合发布《关于加快推进再生资源产业发展的指导意见》,明确废纸等八大重点领域的治理目标。2017年1月25日,工业和信息化部、商务部、科技部联合发布了《关于加快