基于深度学习的人与对象交互动作实时检测算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:su9989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网产业的蓬勃发展,海量的数据规模促使计算机视觉技术向更智能的方向发起挑战,其中人与对象交互动作检测这一任务能够帮助机器对人类的行为进行更深入的理解,在行为分析、视频检索、人机交互、智能家居、游戏和娱乐等领域中都具有广泛的应用前景。因此,研究具有实时性、高效性和鲁棒性的人与物体交互动作检测算法有着重要的意义和实用性价值。针对人与对象交互动作检测任务的特点,采用轻量化的网络架构设计一种具有实时性的人与对象交互动作检测算法。该算法针对现有交互动作检测算法中存在的问题,提出采用极坐标的方式对交互动作进行建模的方案,同时针对角度回归时存在的损失函数边界不连续问题,设计采用一维高斯热力图对极角进行分类预测的方案,同时提出了循环高斯核函数用于增加相邻角度间的容错性,提升算法的检测精度。此外,基于计算机视觉领域中发挥重要作用的注意力思想,利用转换器网络中提出的多头注意力机制设计了一种能够充分利用注意力机制对交互动作特征进行信息增强的点关系注意力模块,该模块能够使得交互动作与具有关联性的人或对象之间进行显式的信息交流,在原有的算法基础上能够使网络的表征能力进一步得到提升。此外,针对人与对象交互动作检测任务中训练样本获取难度大、标注成本高的问题,提出了一种新颖的混合监督方案,能够充分利用额外的目标检测数据集使算法的整体性能得到提升。实验表明,提出的基于极坐标和点关系注意力模块的人与对象交互动作检测算法在不同数据集上与现有先进算法相比具有更高的检测精度,同时在推理速度上取得了两倍以上的提升,可满足现实应用场景中的对模型性能和实时性的要求。此外,提出的混合监督方案能够使HOI检测算法在训练过程中降低对获取难度较大的交互动作类数据的依赖程度,具有实际应用价值。
其他文献
显著性检测旨在模拟人类视觉系统的注意力机制。神经学研究指出人类视觉系统对同步的视听刺激产生的响应要大于单独的视觉刺激,从神经控制的角度表明声音对人眼的关注存在一定影响。然而,以往的视频显著性检测多侧重于视觉信息方面的研究,而忽略了听觉信息的相关作用。将音频引入视频显著性检测研究,可以更好地模拟真实视频观看场景下人眼对视听信息的处理过程,以及人类视觉系统的响应情况。为了更好地体现视觉关注中听觉的影响
学位
随着互联网的快速发展,多媒体数据呈现爆炸式增长,给相关智能分析技术带来巨大的挑战,尤其在计算效率方面。目标检测作为计算机视觉的基础任务之一,也是多媒体智能分析中的常用技术。近年来,深度学习技术的引入使目标检测性能得到明显提升,然而现有目标检测器往往因其庞大的计算量消耗,无法在计算资源有限的设备上充分发挥作用,这对智能产业落地造成了巨大的阻碍。另一方面,针对目标检测轻量化的模型压缩技术尚不成熟,仍有
学位
近年来,随着待解决问题的复杂性增加,神经网络的深度也在快速增长。尽管有不少启发式思路可用于解决深层网络稳定性训练的问题,但他们都缺乏坚固的理论框架支撑,使得定量的说明解释仍然困难重重。因此一种被称作平均场理论的新理论框架近来被广泛研究,旨在为深层网络的稳定训练提供准确的数学证明和解释。但是在诸如生成对抗网络(Generative Adversarial Network,GAN)等无监督模型上,平均
学位
债权人、债务人约定以动产设定质押,但未就交付时间、交付方式等作出约定,而是由债务人通知保管人动产所有权转移给债权人的,可认定双方间成立让与担保合同关系。合同中订有清算条款的,让与担保合同有效。让与担保自债权人与债务人之间有关转让返还原物请求权的协议生效之日起设立;双方未就转让返还原物请求权作出明确约定的,让与担保自债务人通知保管人所有权转移给债权人之日起设立。
期刊
目的 分析第四代Oxford混合型单髁置换术治疗膝关节前内侧骨关节炎的短期临床疗效。方法 回顾性分析2020年10月至2021年9月就诊于江苏省中医院骨伤科的60例前内侧骨关节炎患者资料,均行第四代Oxford混合型单髁置换,其中男20例,女40例;年龄54~85岁,平均(68.43±7.04)岁;左膝32例,右膝28例;身体质量指数19.5~39.1 kg/m~2,平均(25.68±3.55)k
期刊
行人再识别因其在城市安防、智能服务、电子商务等的广泛应用前景逐渐成为了研究热点,但是行人再识别在现实应用中的监控场景十分复杂,行人图像经常会出现遮挡,遭受信息不完整和空间错位的问题,于是行人再识别逐渐衍生出了遮挡行人再识别这一极具挑战又亟需解决的分支。为了解决遮挡问题,本文提出了一种基于像素语义注释与特征不确定性的遮挡行人再识别框架(PSFU),其通过利用精确的外部语义注释和对像素级数据不确定性进
学位
安全服与安全帽是工业生产过程中保障人身安全的防护设备,其穿戴检测研究属于智慧工业建设中重要一环。通过对安全服与安全帽穿戴情况检测,可以对施工作业中的安全隐患及时预警,保障工作人员的生命安全,辅助工业智能化监控管理。在数据集构建方面,基于工业监控视频构建了工业场景中的安全服与安全帽目标检测数据集,总数据标注量共29865张图片,54603个实例。在算法优化方面,对YOLOv5提出两点改进,针对YOL
学位
放、化疗和免疫疗法是治疗肿瘤的常用方法,但其不良反应会对正常组织造成损伤。限食疗法包括热量限制、组分限制、限时进食和模拟限食等方式,其在防治肿瘤过程中可发挥减毒增效作用。限食疗法治疗肿瘤的具体分子机制包括抑制肿瘤代谢模式、破坏肿瘤微环境、增强免疫细胞功能和阻止肿瘤耐药性发生。限食疗法与放、化疗及免疫疗法等相结合是一种有极有前景的肿瘤防治策略,值得进一步研究和推广。
期刊
数字媒体技术的快速发展使电子设备成为存储和传播图像、音像等信息媒体的主要媒介。这些数据能被毫不费力且几乎无损的复制,极大地促进了信息交流,但非法的拷贝和拍摄也给版权保护和保密工作带来了巨大的困难。通过数字水印技术,在信息媒体中隐藏来源信息,这样既不影响观感,又能在内容被盗用或泄密后准确地溯源。对此提出了一种基于信息熵与噪声可见性函数的背景自适应的点阵式屏幕水印。溯源时,将屏摄图片输入目标检测器,就
学位
功能设计是复杂系统设计开发中极其重要的任务,需要依靠正向开发方法来保障功能设计的正确性和完整性。为此,以民用飞机的飞行控制系统(飞控系统)为例,提出了面向正向开发的功能设计方法。首先,借助系统建模语言建立飞机级到系统级再到部件级的功能需求关系模型;然后,按照SAE ARP4754A 民机系统开发指南中的安全性评估方法分析安全性需求,并结合功能需求构建飞控系统的功能知识集;最后采用功能单元方块图和功
期刊