论文部分内容阅读
人体姿势估计旨在从图像中检测和识别人体的主要关节位置,是实现图像理解和行为识别的关键技术,也属于计算机视觉中的基本问题。近来,随着卷积神经网络的应用,人体姿势估计精度得到了很大的提高。但是在关键点被遮挡、人与人间的重叠、复杂的背景等情况下,网络依然会识别出一些错误的点。针对上述问题,本文首先提出了一个多尺度协同网络,通过不同尺度的特征图输入赋予每个网络不同的功能;继而提出了多尺度线性加权的损失函数,用于动态调节多尺度级联结构中损失函数的权重,提升定位精度。在人体姿势估计中,检测精度主要取决于关键点类型的全局信息和关键点位置的局部信息,因而合理有效的信息处理过程对检测结果至关重要。在级联沙漏网络中,单纯地增加级联网络的深度不能有效提高准确率。针对这个问题,我们提出了一个多尺度协同网络。通过多尺度预处理网络形成不同尺度的特征图,将特征图按照从小到大的顺序依次输入到级联网络,赋予每个沙漏网络不同的功能,提高网络整体协作能力。其中,Inception-resnet基本模块作为沙漏网络的增强方法,有效结合了 Inception结构处理多尺度信息的能力和Resnet结构在网络加深时避免梯度消失的特点。本文通过多组对比试验,在MPII数据集和LSP数据集上进行定量评估,多尺度协同网络相较于原级联沙漏网络准确率提高了 0.41%,基本模块Inception-resnet优化后的模型准确率提高了 0.83%。实验验证了多尺度协同网络的有效性和适用性。在级联沙漏网络中使用中继监督进行约束,保证每个沙漏网络输出的准确性。然而,平均加权的损失函数中每个关键点具有相同的损失函数权重,不利于整体提高网络的准确率。针对这个问题,我们提出了多尺度线性加权的损失函数,关键点在不同网络中具有不同的损失函数权重,基于前一级网络损失函数的权重和权系数,动态调整当前网络损失函数的权重,整体提高网络检测关键点的准确率。本文通过平均加权和多尺度线性加权两种损失函数对相同的网络模型进行训练,实验显示在PCKh@0.2和PCP@0.5两种评价方法下,相比于平均加权,多尺度线性加权优化后的模型准确率分别提高0.8%和0.7%。此外本文也比较了两种方法在预测图像上的效果差异。定量和定性的实验验证了多尺度线性加权损失函数的优越性。