基于深度学习的头部姿态估计方法研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:tangdeqian1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
头部姿态估计,即确定人体头部相对于摄像机视图方向的姿态,是基于人体生物特征的计算机视觉领域重要分支。头部姿态可以应用于疲劳驾驶检测、智慧课堂、人机交互等场景。除此之外,头部姿态估计任务还是很多人脸相关任务的基础任务,例如人脸识别、视线估计等。因此头部姿态估计任务具有重要的研究价值,本文结合利用RGB图像和深度图像,并使用卷积神经网络来研究头部姿态估计。主要工作包含以下几个方面:(1)提出了基于多任务与注意力机制的头部姿态估计方法。该算法使用单张RGB图像预测头部姿态。首先,与常规的多任务算法不同,在该算法中将表示头部姿态的偏航角(yaw)、俯仰角(pitch)、滚转角(roll)拆分开来,作为三个子任务分别预测,用来学习各角度的“个性化”特征;接着设计了一个角度分类任务,用来引导三个欧拉角的回归任务;然后以GhostNet为主干网络构建了一个具有4个预测分支的卷积神经网络;并且为四个任务分支都引入了注意力机制模块CBAM,来强化有用特征,弱化无用特征;最后通过引入偏移量的方式,改进过往的头部姿态角度值的计算方式。该算法在300W-LP、AFLW2000、BIWI数据集上进行对比实验,实验结果表明该算法的预测误差平均值,均控制在5°以下,与同类算法相比,取得了良好效果。(2)提出了基于深度图像多级特征融合的头部姿态估计方法。不同于通过深度图像构建三维模型来预测头部姿态的方法,该方法直接使用深度图来预测头部姿态。首先,该方法以ResNet101作为主干网络,具有强大的特征提取能力;接着,为了充分使用深度图的局部空间信息与全局空间信息,构建了多级特征融合模块;最后,沿用了基于多任务与注意力机制的头部姿态估计方法中将三个角度分别作为一个任务的思想,设计了一个具有3个预测分支的卷积神经网络。该算法在BIWI、Pandora数据集上进行对比实验,实验结果表明在BIWI、Pandora数据集上的预测误差平均值分别控制在2°、6°左右,与同类算法相比,效果良好。(3)提出了基于多模态信息渐进式深度融合的头部姿态估计算法。该方法将RGB图像与深度图像相结合来预测头部姿态。首先,该方法模仿了FSANet中的具有异构双流结构的主干网络,构建了一个同构双流的主干网络;接着为了实现多模态信息渐进式深度融合,提出了支流间信息交互机制,在特征提取阶段对多模态信息进行初步融合;然后,提出了引入通道混洗与注意力机制的特征融合模块,对特征提取网络输出的特征图进行深度融合。该算法在BIWI数据集上进行对比实验,在BIWI数据集上的预测误差平均值控制在2°以下,与同类算法以及本文前两个算法相比,均取得了良好效果。
其他文献
作为一种动态的频谱分配策略,认知无线电(Cognitive Radio,CR)为解决频谱资源匮乏和利用率不足的问题提供了新途径。而频谱感知是CR实现的前提与基础,其任务从狭义上讲是检测主用户信道是否被占用;而从广义上看,还包括对信号调制方式、波形等信号参数的识别。通常从用户与主用户之间是一种非协作关系。因此,如何在低信噪比(Signal-to-Noise Ratio,SNR),主用户先验信息缺乏及
学位
滤波器作为无线通信系统中的关键器件,承担着频率选择的重要作用,是第五代(5G)毫米波通信技术研究的重点之一。随着无线通信技术的快速发展,频段也越来越多,滤波器需要具有非常高的带外抑制性来避免目标通带与其他频段产生信号干扰,因此高选择性是毫米波滤波器的设计难点之一。同时,5G无线通信将采用大规模多输入多输出(Multiple Input Multiple Output,MIMO)系统,移动终端对滤波
学位
与传统的无机晶体管不同,有机场效应晶体管(Organic Field-Effect Transistors,OFETs)有着工艺简单、高柔韧性和制备成本低等优点,适用于柔性器件和电路。柔性器件相较于常规硅基器件沟道电流偏低,因此在柔性传感器、柔性显示器与可弯曲智能卡等低功耗应用上有不可替代的地位。低工作电压的OFETs能够满足低功耗应用的要求,因此需要更大的栅介质电容来降低器件的阈值电压。使栅介质
学位
随着现代科学技术的蓬勃发展,各种电子设备如雨后的春笋一般不断涌现,但同时也会带来大量的电磁波辐射。电磁波辐射干扰不仅使得电子设备没有办法正常工作,而且还会对人的身体健康造成一定的影响,所以如何去减小甚至消除电磁干扰成为当今社会越来越关注的一个热门话题。但是,传统的微波吸收体结构采用的印刷电路板(Printed Circuit Board,PCB)结构,为了防止电磁波的透射,往往还有一层不透明的全金
学位
K波段低噪声放大器是卫星通信射频接收系统的关键有源放大模块,是下一代无线通信技术研究的热点之一。低噪声放大器的噪声性能会直接影响整个接收链路的信噪比,因此低噪声要求是低噪声放大器设计的一个难点。同时较低的低噪声放大器增益无法为系统提供足够的增益,会导致信号传输距离变短,因此在工作频段内保持足够高的增益是低噪声放大器的另一难点。本论文面向下一代无线通信技术的应用特点和指标要求,分别从工艺器件、噪声模
学位
有机场效应晶体管(OFETs)发明于20世纪80年代,因为可以在大面积、低温下实现轻薄且柔性的电子电路特点而受到广泛的关注。到目前为止,OFETs被广泛用于显示驱动、射频识别标签、智能卡、存储器、生物医学电子设备和传感器等应用方面。尽管如此,相比于传统无机硅器件,OFETs仍然面临着性能低和制造困难的问题,包括器件的迁移率、阈值电压、开关比和空气稳定性等性能参数仍然较差。无机硅器件可通过掺杂实现欧
学位
当今世界科技发展日新月异,人们也越来越享受科技带来的便利性,开始大力发展物联网技术。而无线传感器网络作为物联网的重要分支,也被研究者高度重视。无线传感器网络是一种由若干个传感器节点构成的智能网络,主要有数据收集、数据处理以及数据传输等功能。由于节点的覆盖率和能量消耗是衡量网络性能的关键指标,因此本文从这两个方面对其进行研究。(1)针对CS算法的收敛速度不高且全局检测能力不强的缺陷,本文分别从步长和
学位
表面肌电信号作为生物电信号之一,与人体的行为动作存在密切的关联。通过分析肌电信号,研究人员能够识别出人体的动作和行为意图。近年来,基于表面肌电信号的手势识别逐渐成为人机交互技术的前沿研究方向,被广泛地应用于工业生产、康复医学、虚拟现实等领域。随着这些应用场景对识别准确率的要求愈加严苛,以卷积神经网络为代表的深度学习网络引起了研究人员的关注。研究表明,深度学习网络在处理肌电手势识别问题时具备较好的适
学位
云计算作为一种远程服务模式,能够给用户提供存储空间和计算能力。为了保证用户隐私,防止数据的泄露,数据通常被加密后存储在云端。属性基全同态加密技术可在实现对共享数据细粒度访问控制的同时,又可对同属性集密文进行计算,同时满足数据共享安全和计算安全问题,但是不能满足多用户需求。而多密钥全同态加密可对不同密钥(用户)加密的密文进行任意计算,计算的结果由参与计算的用户联合所有密钥进行解密,解决了多用户密文进
学位
在过去的30年,有机电子因其出色的柔韧性和机械性能受到广泛关注,成为未来柔性器件的一个重要发展方向。尤其是在最近5~10年,有机电子学在众多领域中得到了广泛的应用,例如有机场效应晶体管(Organic Field Effect Transistor,OFET)、有机太阳能电池、射频识别标签(Radio Frequency Identification,RFID)、数字逻辑电路等。其中OFET是一种
学位