基于交互信息的动作识别模型

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yx_maomao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度网络在各图片任务上取得巨大成功,越来越多研究将重心放在更为复杂的视频理解任务上。动作识别任务的目的是对视频中所有人的动作进行时空位置的捕捉以及动作的识别,是重要的视频理解任务之一。动作识别课题具有重大的科研以及应用价值。动作识别能够广泛地用于监控摄像头、自动驾驶、平台视频审核和商业化、人类行为学研究等领域。本文基于视频中存在的多种交互关系对动作识别课题进行研究。交互关系泛指视频中人和环境的交互,我们通过对视频中人动作的观察,归纳出三种对动作分类有帮助的交互关系,其分别为人人交互、人物交互以及时域交互。为了对这些交互关系建模,我们首先利用深度视频网络配合物体检测模型,对视频中出现的人和物体的特征进行提取。对于这些提取的人和物体的特征,我们提出通用的基于点乘注意力机制的交互模块分别对上述三种交互关系进行建模。为了融合这三种交互模块,我们提出串型推理的结构,通过不同交互模块的串型相连,使得人的运动特征在交互模块中不断加强,并随着交互网络深入,能建模更加复杂的交互关系。长时域交互关系的建模对动作识别来说是重要且复杂的,以往算法在对类似长时间交互关系进行建模时需要消耗大量计算资源,针对这一问题,我们提出了特征池和时域动态读写算法。特征池存储了视频中较长时间内的运动特征,在训练时,模型使用算法在特征池通过读和写的操作对池中特征进行读取和更新。使用特征池和动态读写算法,一方面使得我们可以存储距离目标视频间隔长的时间特征,避免了直接对一整个视频进行卷积运算,另一方面,这种算法避免了对时间距离远的视频的特征离线提取,实现了更简洁的运算以及更好的效果。本文提出的模型在大规模原子动作数据集上进行实验。原子动作数据集是目前最大的,也是最可信的动作识别数据集。本文设置了多组对照实验来验证文中提出的各个模块的计算优势和精度优势。与目前其它高水准的动作识别算法相比,我们的模型使用同等或者更少的计算量,单模型精度提高了至少5m AP。本文提出的基于交互关系的动作识别模型是目前最好的动作识别模型。
其他文献
为进一步加强检测机构技术能力水平,帮助辽宁省实验室提升婴幼儿纺织品pH值的检测水平,组织开展全省实验室婴幼儿纺织产品水萃取液pH值的测定能力验证。依据GB/T 7573—2009《纺织品水萃取液pH值的测定》及中国合格评定国家认可委员会(CNAS)规定的程序进行本次能力验证。采用单因子方差分析对测试样品进行均匀性检验,采用t检验对测试样品进行稳定性检验,采用Z比分数评价各参加实验室的测试结果,以稳
ZnO纳米线因其优越的物理化学特性,被广泛地用于各个领域。ZnO纳米线的尺寸、形状等几何结构是影响物理化学特性的重要参数,如何准确地对ZnO纳米线SEM图像进行识别、分割,最终实现测量,对于构建纳米材料的微观特征与宏观物理化学特性之间的联系有着重要的意义,尤其能够推动对其物理机理的理论认识。然而目前所使用的测量方法主要都是人工手动测量,该方法效率低,成本高,无法实现大规模测量。深度学习自2006年
旁路攻击对加密算法的安全性造成了很大的威胁,在安全领域受到研究者广大的关注和研究。旁路信息的采集作为旁路攻击的第一步,是后续分析和攻击的基础。传统的异步采集方法降低了旁路信息的信噪比,同时还使得后续无法对齐旁路信息,对旁路信息的攻击造成了极大的困难。因此,大幅提升旁路信息的采集效率,并研究基于旁路信息的旁路攻击方法是十分重要的。本文主要的研究内容和研究成果如下:1、针对传统的异步旁路信息失调问题,
随着网络的不断发展,互联网应用层出不穷,日益增加的用户让互联网逐渐成为了资源丰富的数据库。本文针对大量的互联网数据,提出了短文本关系分类的基本框架。针对数据中存在的噪音问题,本文分别提出了重要实体词典的扩展方法,并尝试应用一般性中文文本错误的纠错模型,对网络文本首先进行了预处理。针对标注数据缺少的问题,本文提出了结合少量人工标注数据所学习到的基本规律,引入外部知识来进行辅助判断的算法,从而得以构造
近十年来,微型扑翼飞行器逐渐成为飞行器乃至机器人领域中一个具有广泛前景的研究方向,但其实时视觉系统的开发在世界范围内尚未形成完备的理论与技术路线,在算法设计、设备选型等方面还有大量创新的空间。本文以上海交通大学自主研发的微型扑翼飞行器为载体,从实时电子稳像去抖、人像检测、避障检测以及硬件模块设计等方面完成实时视觉系统设计。首先,针对微型扑翼飞行器高频抖动的特点,本文提出一种基于卡尔曼与低通混合滤波
随着互联网时代的来临,人们能从媒体获取的信息越来越多。信息抽取这一学科正是研究如何从海量的文本数据中抽取出关键的信息,因此成为了很多学者关注的课题。本论文所提出的两个工作分别是属于信息抽取的两个分支:开放式信息抽取和命名实体识别。对于开放式信息抽取,本文分别从模型和数据使用上有所创新。在模型上,本文提出了基于短语级别的开放式信息系统并且在与其它系统的比较中取得了最好的成绩。在数据上,本文提出了将置
本篇文章探索的主题是人类的语义处理过程。人类的语义处理是人脑神经元之间通过神经冲动与神经突触构建的网络形成的生物物理过程。它可以将人类通过不同感官接收到的语言文字表达形式与认知系统中对事物概念的理解和含义联系起来。语义处理的生物基础是神经元间的协同激活状态(神经表示)。通过大脑成像方法测量神经活动可以用于推断大脑的神经表示。生物编码实验是对对大脑的内在活动进行建模探索的一种方法。它可以通过建立人为
毛纺织行业是纺织行业的重要组成部分,是生产高品质、创造高价值、体现高品位时尚生活的消费品工业,也是蕴含历史文化,融合现代科技,涉及牧工贸三产联动的民生产业,在加快人民生活品质提升,满足人民美好生活需要,促进国民经济健康发展中发挥着重要作用。"十四五"时期是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年。根据
期刊
随着近年移动设备搭载的摄像头个数持续增加,CMOS图像传感器的市场情况持续火热。虽然目前的图像处理技术已经有了很大的提高,但由于一些客观原因的存在,总会使得采集的原始图片中存在一些坏点,极大地影响了图片质量。因此本课题将对CMOS图像传感器的坏点校正问题展开研究。本文基于图像传感器中坏点的特性,采用先进行静态坏点校正再进行动态坏点校正的方式,对图片中可能存在的坏点进行处理。其中静态坏点校正处理3×
正电子发射断层成像技术(Positron Emission Tomography,PET)是目前分子水平上进行功能显像的最先进的医学影像技术,适用于脑部成像,心血管疾病,肿瘤等疾病的早期预警与诊断,在国内外受到高度关注和广泛应用。PET系统中事件处理是前端电路与图像重建的重要桥梁,直接影响成像效率和重建图像质量。脑部PET系统事件处理主要包含解码、延时校准以及符合等环节。对于PET系统,采集过程将