第一视角下的动作预期方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：amwygah021121

【摘要】

：

【作者】

：

江泽宇

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机视觉的发展,有关于预测未来的任务兴起。动作预期是指根据人类已经发生的动作,预测人类未来将要发生的动作。第一视角的视频可以从人的角度收集视觉信息,表示出人类如何感知环境,从而能更加直接研究人类的行为。第一视角下的动作预期任务可以帮助机器理解和预测人类的行为。随着深度学习的发展以及大规模第一视角视频的数据集的出现,第一视角下的动作预期任务得到突飞猛进的发展。本文致力于解决现有的第一视角下的动作预期算法所存在的问题,并做出自己的贡献,主要成果如下:1针对现有因果Transformer的解码器没有考虑到时间多尺度信息的问题,本文设计了一个基于时间多尺度的因果Transformer的解码器,在保留因果Transformer考虑到动作的连续性和长时间依赖的特点的同时,捕获了时间多尺度的信息。经过实验验证,本文所提出的时间多尺度解码模块能提高动作预期的性能。2针对预期间隔缺失的信息影响第一视角下的动作预期的性能的问题,本文利用知识蒸馏的方法,通过教师模型学习到的预期间隔和需要预测的动作的软标签作为知识指导学生网络学习到预期间隔的信息。通过实验证明,基于预期间隔软标签蒸馏的方法可以减少预期间隔缺失的信息对第一视角下的动作预期的影响,提高预测未来动作的性能。3针对现有的第一视角下的动作预期的研究工作缺乏考虑动词和名词关系的问题,本文提出一种动名词关系交互模块建模动词和名词的关系。动名词关系交互模块通过预测出的未来动词的特征指导已观察视频中与佩戴者交互的名词的特征表示未来与佩戴者交互的名词的特征。通过实验证明,本文所提出的动名词关系交互模块可以明显提高未来预测的名词的性能,进而提高动作预期的性能。

其他文献

鳞杯伞α-半乳糖苷酶的分离纯化、酶学性质研究及应用

α-半乳糖苷酶可以催化α-1,6连接的末端半乳糖残基靶向水解半乳寡糖,在食品工业、动物饲料、生物医学和生物质加工方面具有巨大的潜力。为丰富食用菌α-半乳糖苷酶基因库以及开发五台山台蘑的应用潜力,本研究利用离子交换层析和凝胶过滤层析对鳞杯伞子实体中的α-半乳糖苷酶进行纯化,得到了一种分子量为50 k Da的α-半乳糖苷酶,命名为CSG。CSG的纯化倍数为891.46倍,得率为0.71%,比活为54.

学位

小麦麸皮、胚芽食用品质改良技术研究

本研究选用小麦麸皮、胚芽,通过挤压膨化技术和超微粉碎技术来使物料改性,达到提高物料中可溶性膳食纤维（SDF）含量的目的。通过响应面优化物料挤压膨化的工艺参数,分析物料膨化粉碎前后的结构及功能性变化情况。结果表明:最优挤压膨化工艺参数,小麦麸皮为物料水分含量40%,螺杆转速45 r/min,末端膨化温度130℃;小麦胚芽为物料水分含量25%,螺杆转速50 r/min,末端膨化温度120℃。挤压膨化物

学位

基于交叉视差注意力机制和多尺度残差密集网络的立体图像超分辨算法研究

立体图像有着非常广泛的用途,如高分辨率3D电视、三维建模、智能导航、自动驾驶等,而且随着沉浸式技术（如VR、AR等）和游戏影音行业的发展,要求更精细、更高分辨率的立体图像内容,这也催生了立体图像超分辨技术的兴起。超分辨技术是从低分辨图像中盲重建出高分辨率的图像,是一个不适定性问题。近几年,单图像超分辨领域的研究者利用深度学习方法进行了充分的探索,并获得了优异的效果。立体图像超分辨技术是借鉴单图像超

学位

基于深度学习的视觉情感分析研究

人们的认知、表达和决策等行为在不同程度上受到情感因素的影响。因此,拥有对人类情感的感知和理解能力是人工智能的重要一部分。视觉情感分析是情感计算领域的一个重要研究方向,在用户行为预测、视觉场景构建等方面有着重要意义。研究表明图像中不同区域对情感表达的贡献是不同的,观看者的情感变化受图像中相关区域影响。当前大多数研究聚焦于挖掘图像中与情感最相关的局部区域,忽略了图像中多个局部区域间具有的语义上的联系。

学位

基于深度学习的单幅图像超分辨率重建研究

在过去二十年里,图像超分辨率领域取得了巨大的进展,特别是基于深度学习的超分辨率方法,极大地提升了模型的重建性能。在安防监控、医学图像处理、卫星成像和生物特征识别等诸多领域,图像超分辨率也发挥着至关重要的作用。然而现有性能优越的超分辨率方法其体积往往非常庞大,对于硬件设备的性能要求也非常高,实际应用场景非常有限。本文主要是基于深度学习的单幅图像超分辨率重建方法研究,分别从多尺度和模型轻量化两个角度去

学位

基于双流网络的自然场景面部表情识别研究

面部表情识别旨在针对人脸表现出的表情、肌肉运动、身份信息等特征来判别人的情感,其被广泛用于人机交互、心理测评、刑事侦查、医疗诊断、虚拟现实及智慧教育等场景。近年来,面部表情识别成为计算机视觉领域的一个重要应用方向。现有的面部表情研究主要集中在实验室环境下对单张图片进行简单分类,虽然已取得了一定成果,但在面对自然场景视频下遮挡、光照及面部运动等问题还存在很大挑战。本文针对自然场景视频中的面部表情识别

学位

杨梅果酒制备工艺优化及品质分析

杨梅作为一种中国特色水果,富含多糖、有机酸、花青素、维生素和矿物质等营养成分,具有降血脂、抗氧化和抗癌等生物活性功能。本文以荸荠杨梅为原料,首先,通过响应面法优化杨梅汁的复合酶解工艺,并对酶解后的杨梅汁进行品质分析;然后,通过对不同酵母菌发酵过程中杨梅果酒的理化指标变化,筛选合适的酵母菌;其次,对筛选所得酵母菌种对杨梅果酒的发酵工艺进行优化,并对果酒的营养指标进行分析;最终,对杨梅汁、酶解杨梅汁和

学位

不同干燥方式燕麦蛋白的性质及对肌原纤维蛋白凝胶特性的影响

为研究添加不同干燥方式处理的燕麦蛋白（oat protein extract,OPE）对肌原纤维蛋白（myofibrillar protein,MP）凝胶特性的影响,采用4种不同干燥方式（喷雾干燥、冷冻干燥、真空干燥和微波干燥）处理OPE,探究不同干燥方式对OPE性质和结构的影响,随后将OPE以不同的比例通过替换和添加的方式参与动植物蛋白凝胶的形成,考察其对MP凝胶特性的影响。试验结果表明:不同干

学位

小米蛋白的提取与表征及热处理对其醇溶蛋白的影响

[目的]小米蛋白质含量丰富,是优质的植物蛋白质来源。目前对小米蛋白提取表征的系统研究及其蛋白质的特性研究报道较少。因此,本研究旨在优化小米蛋白的提取工艺,表征功能及结构性质并研究热处理改性对小米醇溶蛋白的影响,探究蛋白功能性质与微观结构的关系,以期为小米加工和醇溶蛋白的利用提供理论依据。[方法]采用Osborne分级提取法优化小米四种蛋白质的提取工艺并对其功能及结构进行表征,通过热处理对小米醇溶蛋

学位

基于空间和类别关联的场景图结构生成方法研究

场景图结构作为一种场景信息的结构化表示,不仅描述了场景中物体的信息,还描述了物体之间关系的信息,是实现场景理解的重要工具。当前,场景图结构生成方法的研究工作主要从信息交融以及模型去偏倚这两个方向上进行。基于前人的研究并针对其不足,本文在多个方面,对现有的场景图结构生成方法进行了一定的改进设计,主要有以下贡献:1.针对信息交融方法改进,本文提出了一种基于空间关联的信息交融方法。在识别效果良好的图片样

学位

第一视角下的动作预期方法研究

与本文相关的学术论文