基于多尺度边缘表征和时序信息融合的行为识别方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:longzhulx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是一项通过各种传感器数据来获取人体动作的技术,是计算机视觉领域中的重要研究方向之一。随着互联网带宽的不断提高,网络短视频和网络直播等行业逐渐兴起,由此产生的大量视频数据亟待被合理地分类和管理,这一任务通常需要以行为识别技术作为基础。此外,行为识别在安防监控、自动驾驶以及医疗看护等领域也有着广阔的应用场景,它能解决这些领域中人力资源短缺、人工操作响应慢等问题。随着深度学习在人工智能的各个领域中大放异彩,越来越多的计算机视觉任务开始采用深度学习的相关技术并且取得了许多显著的成果。然而,考虑到计算成本高和识别准确率低等问题,基于深度学习的行为识别方法在现阶段还尚未达到令人满意的效果。因此,如何提升行为识别准确率并降低计算量具有着十分重大的研究价值和现实意义。本文针对现有行为识别方法中存在的问题进行了深入研讨和优化改进,并在准确率与计算速度方面有了显著的提升。现将本文的主要工作总结如下:第一,本文在对比了目前各种主流行为识别方法的基础上,提出了一种基于多尺度边缘表征的行为识别网络架构,通过将运动物体的边缘变化图像代替光流图像进行运动表征,有效地解决了光流图像计算耗时长、占用存储多等问题,使得该方法有能力应用于需要低计算延迟的实时应用场景中。多尺度特性使得网络能够自适应地学习视频帧之间的变化特性,提升网络对于不同变化幅度的动作的鲁棒性,从而提高网络性能。该方法在更关注动作的Something-Something-V1数据集上取得了 54.80%的准确率,与目前最好的方法在准确率上近似(55.16%)的同时在计算速度上更有优势。第二,有效利用动作信息与时序信息,提出了时序片段运动表征模块与时序信息融合模块,加强了网络对于时序信息的提取和融合。对于行为识别任务来说,短时期的动作信息与中长时期的时序信息都是分类的关键。时序片段运动表征模块的思路来源于运动挤压模块,能够利用边缘表征计算的中间结果,用非常少的计算消耗就能够提升网络性能;时序信息融合模块则具有更高的识别准确率提升作用,它通过学习权重的方式融合不同时间片段的信息。该方法在Something-Something-V1数据集上取得了 54.32%的准确率。
其他文献
聚合物-液晶复合材料由于其良好的稳定性与调控性,以及在显示、光电子及生物医药等领域的应用前景,引起了研究者们强烈的兴趣。作为其中的一类,液晶-聚合物模板体系,由于特有的“清洗-再填充”特性,赋予其极大的灵活性,扩大了聚合物-液晶复合材料的应用范围。各种基于该体系的新型光学器件层出不穷,打破了传统单一的电场调控方式,实现了器件光学性能调谐的多样化。而基于光引发聚合体系的全息聚合物-分散液晶体系更是在
学位
半导体激光二极管已经包括了从太赫兹到紫外的广阔波段,在工业、交通、通信、信息处理、医疗卫生以及文化教育等多种领域都有着非常重要的应用。本文所研究的就是对用Ⅲ族氮化物半导体材料设计的深紫外激光二极管(Deep Ultraviolet Laser Diode,DUV-LD)的性能进行优化。由于Ⅲ族氮化物材料的激光二极管具有可以直接包含蓝光、绿光、紫光和紫外光的比较大的禁带宽度,并且它的发光特性远远优于
学位
传统对企业经营状况分析主要以企业的财务报表为基础,而财务报表一般只有上市公司才会公布,因此在缺乏财务报表情况下难以利用传统方法判断企业的经营状况。目前对此方面的研究较少,因此本文基于数据挖掘方法对企业经营状况分类,同时挖掘出影响企业经营的重要因素,研究具有一定的应用价值。首先分析企业经营相关的发展现状并且记录下可能影响企业经营的潜在因素,其次利用Python爬虫爬取数据构建企业数据集,再次经过数据
学位
本文介绍了在传统溶剂催化液化的基础上增加等离子体技术液化剩菜剩饭的一种新型转换工艺,具有液化时间短,效率高,装置简单,能耗低等优点。实验主要研究了等离子体电解液化剩菜剩饭的反应途径和催化机理。实验前,我们首先对等离子体电解特性做了研究,放电模式从最初的丝状辉光放电转换为火花放电,电压电流曲线也出现两个明显趋于稳定的变化,这主要是由于剩菜剩饭中含有大量水分。在等离子体电解液化实验过程中,我们探究了一
学位
改革开放成功地激发了企业活力,中国市场经济逐渐繁荣,但是许多企业在追逐利润的过程中未履行相应的社会责任,导致企业与其他个体之间的冲突加剧。随着环境污染、财务造假、员工压榨、产品安全等社会问题不断被曝出,企业社会责任(以下全文简称为“CSR”)逐渐走进人们的视野。而管理层作为公司战略制定与执行的决策者之一,其权力特征不仅决定了企业行为是否贯彻管理层意志,同时也会对管理层自身的行为产生影响,这些最终都
学位
随着工业科技水平的提高,显示技术的急速发展逐渐模糊了图像与真实世界之间的界限。通过分析二维图像背后隐藏的三维信息,生物大脑可以根据图像中的特征信息来自组织构建三维立体模型。为了更好的凸显二维图像中的高维信息而引入视错觉复现系统,其对提升三维成像效果具有不可忽略的影响。本文针对视错觉复现系统在三维成像系统中的应用涉及到的关键技术,首先介绍视错觉生物机理,重点分析了视神经细胞感受野,特别针对其具有方向
学位
人体动作识别是计算机视觉领域中一项重要且具有挑战性的任务,基于骨骼的人体动作识别由于人体骨骼数据的鲁棒性和易获取性在该领域引起了广泛的关注。近年来,随着深度学习的发展,利用图卷积网络将人体骨骼建模成时空图来探索人体关节的内在联系,取得了显著的效果。然而,现有方法忽略了关节之间的远程依赖关系,固定的时间卷积核会导致时间建模缺乏灵活性,而且现有模型往往过度参数化,加大了计算成本。针对这些问题,本文基于
学位
三维物体分类算法作为三维理解中的核心算法,在实际生产生活也得到广泛应用,例如人机交互技术和自动驾驶技术。本文以三维物体分类任务为目标,重点研究了基于全景图的三维物体分类算法,分别探究了全景图的局部信息、全景图与点云数据的多模态融合以及全景图的旋转不变性,并提出了改进的深度学习算法。具体工作如下:1.探究全景图的局部信息。本文在原有点云空间分布全景图的算法基础上,引入了结合了三维物体大小信息的点云空
学位
<正> 我们采用0.9%生理盐水蛛网膜下腔缓慢推注治疗颅内低压综合征5例获明显效果,现报告如下。治疗方法及疗效观察 1.凡确诊为颅内低压综合征者,首次剂量10~16ml。 2.治疗方法:患者左侧卧位,取第三、四腰椎间隙为穿刺点,一切按腰穿常规进行,用大号腰穿针行腰椎穿刺术。测脑脊液压力在8kPa(60mmH2O)以下者,即刻取0.9%生理盐水10~16ml蛛网
期刊
在共同保证中,多个保证人对同一债务的债务人提供保证,部分保证人承担保证责任后能否向其他保证人追偿这一问题存在较大争议。若各保证人对保证份额或能否追偿作出了约定,理应尊重其约定。但在保证人之间未约定保证份额情况下,保证人之间能否相互追偿,《民法典》未予明确,学者对此认识不一,形成了“肯定说”与“否定说”两大阵营。在司法实践中,法院对该问题的不同理解和处理造成了裁判分歧较大,因而对该问题的研究意义重大
学位