论文部分内容阅读
人体解析技术现在已经成为了一个比较热门的研究方向,该技术有很多应用场景,如视屏监控、智能家居、人机交互等。人体解析和语义分割的本质相同,同属像素级别的分类问题,所以人体解析模型大部分是基于语义分割模型改进的。但很多研究工作忽略了人体各部位间存在的结构化先验信息和人体图片各像素之间的相关性等问题,并且很多研究的实验结果表明在多人存在的复杂场景下人体解析性能较差,在预测图片中无法勾勒出所有个体。针对以上问题,本文从单人解析和多人解析的角度出发,使用深度学习方法,对自然状态下的人体进行解析,主要工作如下:首先,从语义分割和人体解析的研究现状出发,分析语义分割模型和人体解析模型的联系与区别,总结了基于语义分割的人体解析模型存在的问题并提出相应改进方法。其次,从PASCAL VOC 2010数据集中提取了 3533张人体图片,并对人体标签进行融合,建立了 PASCAL-Person-Parts-5五种类型的人体部位数据集和PASCAL-Person-Parts-7七种类型的人体部位数据集。提出了八邻域边缘点提取算法,并建立了 PASCAL-Person-Parts-Edge-7七种类型的人体部位边缘数据集。然后,从单人解析的角度出发,发现人体图片的各个部位之间存在结构化的先验信息,并且相比于场景图片,人体图片像素之间存在更强的相关性,提出了基于条件随机场和边缘点惩罚机制的人体解析模型。使用条件随机场考虑相邻像素的影响并对预测结果进行优化,使用边缘点惩罚机制对人体各部位结构化先验信息进行建模,并在 PASCAL-Person-Parts-5 数据集和 the Freiburg sitting people数据集上进行实验,证明了该模型能够提高人体解析模型的性能和改善边缘处的勾勒效果。最后,从复杂场景下的多人解析角度出发,发现人体解析模型对多个人的复杂场景解析效果较差,无法准确定位图片中的所有个体,所以为了改善人体解析模型的定位过程,提出了基于边缘检测的人体解析模型。在PASCAL-Person-Parts-7 数据集和 PASCAL-Person-Parts-Edge-7 数据集上进行实验,证明了该模型确实能够通过边缘检测网络提取出的人体各部位边缘加强定位过程,改善模型解析性能,改善多人解析效果。