单目图像与视频中人体姿态估计问题的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:z30405060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体姿态估计是计算机视觉领域的研究热点和难点,在智能监控、高级人机交互、图像与视频检索、虚拟现实、运动分析等领域有着广泛的应用前景。而单目图像和视频中的人体姿态估计中存在若干需要解决的关键问题,例如,搜索空间较大而引起部位搜索效率相对较低,人体姿态的多样化导致的部位误检,遮挡引起的人体部位漏检和误判,视频姿态估计的推理结构复杂度偏高等。针对以上姿态估计中的四个方面的关键问题,本文分别提出基于MRF超像素标记的部位搜索算法、基于多模人体结构的姿态多样化表示方法、基于遮挡级别的遮挡部位建模方法和基于组合模型的视频人体姿态估计推理方法。本文的主要研究内容如下所示。
  为了有效提高部位搜索效率,提出一种基于超像素的部位搜索方法,引入基于MRF的超像素标记方法,通过超像素的遍历以完成部位匹配。首先,完成整幅图像的超像素提取,提出一种超像素MRF模型完成超像素类别的标记。然后以超像素为单位进行部位搜索,将超像素中心作为正方形部位检测器的匹配中心进行部位识别;最后通过DPM方法获得姿态估计结果。在数据集IP和LSP上的实验结果表明,基于超像素标记的姿态估计算法可以从图像中将人体部位标记出来,有效地减少了部位搜索时间,提高了姿态估计的准确率。
  针对姿态估计方法受到人体姿态多样性的影响问题,研究适合表示人体结构的模型,提出一种基于GCT(Global-Constellated-Tree)结构的多样化人体姿态表示方法。首先,提出一种多模人体整体(Global)检测器完成人体整体方位的检测,以获得初始人体候选集;然后提出一种多模型的星型(Constellated)结构,表示方位多样化的人体各个部位和整体之间的关系;为了更好地描述相邻部位之间的分布关系,在整体-星型模型中融合树型(Tree)模型。数据集IP和LSP的结果表明,该方法提高了姿态估计准确率,尤其提高在人体姿态多样的情况下的结果。
  为了全面考虑遮挡对部位检测和人体结构的影响,提出基于部位遮挡级别的遮挡部位建模方法,建立多种遮挡情况下的人体部位检测器并描述相邻部位之间的关系。首先定义遮挡级别为人体部位的被遮挡程度,通过计算部位遮挡比例和部位方向获得;然后根据遮挡级别为每个部位建立对应级别的部位检测器,并给出基于遮挡级别的部位间形变模型;最后依据以上两个模型的总体匹配得分,获得最合理的人体姿态。在标准数据集IP和LSP上的实验结果表明,该方法提高了姿态估计的整体准确率,特别是减少了有遮挡情况下的部位误匹配问题。
  针对视频中姿态估计的正确率较低、推理优化复杂度高的问题,提出基于CES(Composite-Elementary-Symmetric)组合模型的人体姿态估计推理方法。首先,针对多帧姿态推理结构的复杂度较高的问题,提出人体组合(Composite)部位模型,表示人体中若干刚体部位及其关系,并根据组合部位的树型结构完成多帧图像的姿态推理优化;然后,为了提高单帧图像中人体各个细微部位的检测率,提出基本(Elementary)部位模型,将组合部位划分为若干基本部位,通过基本部位的简单线性关系构建单帧图像中的组合部位。最后,为了进一步提高推理效率,在组合模型中引入对称(Symmetric)部位模型,统一描述人体结构中各个对称部位,减少人体部位重复检测,优化姿态推理过程中的结构复杂度。在标准数据集Outdoor、HmanEva-Ⅰ和N-Best上的结果表明,该方法提高了姿态估计准确率的同时提升了视频推理效率。
其他文献
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。  由于短语是自然、低歧
学位
行人检测技术应用于计算机视觉的多个领域,如视频监控、动作行为分析、汽车辅助驾驶、机器人控制等,具有广泛的应用前景和研究价值。多年来,行人检测技术取得了一定的研究成果,但由于行人较大的类内差异和场景的复杂性,仍然存在很多未很好解决的问题,需要进一步的研究。本文进行行人检测算法的研究选择了预处理环节、基于部位建模的分类器和自适应场景的模型推荐三个角度,并提出了改进方案。本文的主要研究工作和成果体现在以
学位
近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近
学位
随着语义Web技术的不断发展和应用,万维网上充满了大量可读取、可被机器理解和处理的RDF数据,RDF数据关键字查询问题的研究已经成为当今语义Web研究的一个热点。无论是终端用户还是应用系统,都有着对RDF数据进行查询的需求。但是,RDF数据的标准查询语言SPARQL对于普通用户来说过于复杂,用户既不了解SPARQL查询的语法和语义,更没有掌握待查询的RDF数据的模式信息。因此,本文提出一种基于查询
机器翻译是实现“沟通无国界”这一梦想的核心技术,长期以来一直受到学术界和工业界的广泛关注。然而,无论是统计机器翻译,还是发展速度较快的神经机器翻译,都还有一些问题有待解决,包括:如何提高稀缺资源翻译任务上的翻译效果、如何在神经机器翻译中使用统计机器翻译中证明有效的方法、如何有效地利用骨架知识指导翻译、如何有效地使用语言学知识优化译文质量。本文通过引入多层次知识来解决机器翻译中存在的上述问题,多层次
基于服务的软件系统(Service-Based Software System,SBS)因其配置灵活、动态重构等优点,已经成为当前Internet环境中快速构建大规模、分布式应用的重要形式。随着近年来云计算技术的迅猛发展和广泛应用,越来越多的服务提供商开始将SBS部署到云平台上。然而,由于云资源的按需分配和付费特征,部署基于SBS的云应用面临一个资源优化分配问题,即如何确定SBS各个组件服务的最优
学位
云计算是继分布式计算、网格计算和对等计算之后的一种新型的通过互联网提供服务的计算模式,其主要特点是按需使用、随时扩展和按使用付费。云提供者将底层计算资源(CPU、内存和存储等)配置成不同类型的虚拟机(Virtual Machine,VM)实例,并以VM实例的形式提供给云用户使用。然而,云计算资源的海量性、异构性和动态性等特点使得云计算资源分配变得更加复杂。如何合理而有效地将云计算资源分配给云用户达
学位
随着科学技术的快速发展,优化问题已成为人工智能领域及其他相关领域中重要的问题形式之一。近年来,优化问题呈现出愈发复杂的趋势,通常需要同时考虑多个相互冲突的目标并且需要同时满足多个约束条件,由此产生了多目标优化问题及超多目标优化问题。随着目标数量增加,问题的求解难度也不断加大,这使得超多目标优化问题的求解方法成为近期的一个研究热点和难点。此外,如何基于优化理论对其他领域中的复杂问题进行建模和求解也是
随着移动互联网技术和智能移动终端的快速发展,以位置服务为基础的社交网络、共享出行、交通导航、紧急救援等应用展示了巨大的市场前景,同时在室内展厅、大型超市、医院、会馆、监狱、影院、剧场及图书馆等室内环境中也涌现了大量的室内位置服务需求。室内位置服务是真正实现万物互联的基础,将成为下一个万亿级的蓝海市场,具有巨大的社会、经济和科技战略价值。如何实现高精度、低成本的室内位置服务已成为国内外研究的热点。 
学位
自然界的演化与人类社会的发展并不是简单的遵循随机规则,而是受到一定的潜在规律所支配,对这些自然规律的探索长久以来吸引着无数科研人员的目光。近二十年快速发展的网络科学从全新的视角为研究人员提供了一系列理论与研究工具,用于探索自然界和人类社会的奥秘。其中,从微观的角度对研究对象“影响力”的研究逐渐成为了解分析以致控制预测宏观复杂系统的重要途径。随着网络科学在跨学科领域的飞速发展,节点影响力的度量方法与
学位