人体姿态估计:从二维到三维

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dengsanhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体姿态估计的目标是自动获得视频或图片中的人体各个部分的位置。其在很多领域中都有着重要的应用,比如人机交互、游戏、虚拟现实、视频监控、运动分析和医疗辅助等。这使其成为了近年来计算机视觉领域十分热门的研究课题。
  本文提出了两个人体姿态估计方法,分别用于解决二维多人和三维多人的人体姿态估计问题。二维多人姿态估计方法结合了传统的自顶向下和自底向上的方法。具体来说,该方法以自顶向下的方式执行神经网络前馈,然后以自底向上的方式在人体边界框的约束下解析人体的姿态。与过去的自顶向下的方法相比,该方法对边界框的位移和形变更加稳定。通过一个全新的多阶段的残差网络,从原始图像中提取特征,并训练网络以学习关键点的置信度图和关键点之间的连接关系。在测试过程中,使用预测的置信图、连接关系和边界框来解析所有人的姿态。三维多人姿态估计方法首先获取二维关键点位置,然后通过在视图之间寻找关键点之间的关联匹配关系以获得三维姿态。在该方法中,使用了一个多图像匹配算法将所有视图中检测到的二维关键点关联起来,当关键点在多个视图中匹配之后,就可使用最小生成森林算法在多视图中重建三维姿态。与自顶向下方法相比,该方法无需在二维图像上使用人体检测器,且无需对不同视图中的姿势进行匹配。多视图的约束使该方法可以纠正二维估计中的错误估计。在多个数据集上进行的实验表明,这些方法与其他最新的方法相比,都可以在合理的运行时间下显著降低姿态估计结果的误差。进一步的,作为应用,使用提出的方法建立了三维人体姿态数据集,数据集包含在室内外场景中拍摄的上百个单人或多人视频序列,并且通过实验验证了数据集在人体姿态估计问题上的可用性。
其他文献
随着人工智能及信息技术的高速发展,服务机器人的智能化水平飞速提高,应用场景更加丰富,已经普遍进入并开始改变我们的生活。人们期望其可以成为能够快速准确理解用户请求、不断增长和扩展技能、能够应付复杂环境和复杂任务的智能助理。当前对于提高服务机器人的智能化水平,主要有两方面实践,一种是提高单个机器人的技术水平,常见于单一功能和应用场景的机器人中,如教学机器人、扫地机器人等,这种方式的问题是由于知识闭塞而带来的重复学习;另一种是通过统一终端来控制其他设备,例如智能家居中的智能音箱,这种方式可以通过人机交互实现多个
近年来,随着中国对地震预警工作的投入不断增加,地震监测网络不断完善,地震监测台站所记录的数据爆炸式增长。地震数据的飞速增加导致人工处理与分析工作越来越困难。因此,对自动化处理分析方法的需求越来越迫切。随着深度学习方法的快速发展,在地震相关研究中应用深度学习逐渐成为一种发展趋势。地震事件检测、震相到时拾取(这里将二者统称为地震事件到时识别)与震级的快速估算是在地震研究中非常重要和典型的三个任务。利用深度学习方法去解决这三个问题,会提高对地震数据处理与分析的效率,从而能大幅度节省人力成本和时间成本。
 
中国制造业近年来蓬勃发展,其中离散制造型企业的数量也在快速增加。离散制造因其高度复杂的加工过程给生产管理带来了许多问题,例如生产周期难确定、物料需求多变等。这些问题需要用合理有效的生产计划来解决。但目前企业计划排程的实施效果并不理想:企业资源计划管理ERP(Enterprise ResourcePlanning)中基于无限产能的计划排程模型,与实际生产情况差距大,计划执行困难;而考虑更为全面、基于多条件约束的高级计划排程APS(Advanced Planning and Scheduling)也存在着工艺
众所周知,在很多自然语言处理的任务中,知识库所起到的作用是不可或缺的,比如问答系统,自然语言推理等等。而实体链接,也就是在知识库中找到一段文本所包含的实体,很多时候是作为这些自然语言处理任务的上游基础任务存在的,因此实体链接可以说是一项非常重要的工作。
  自实体链接任务发展以来,标准实体链接任务的链接目标都是类似Wikipedia这样的大型百科知识库,这类实体链接方法的准确率已经达到了很高的水平。但是这在很大程度上依赖于这类知识库中已被挖掘的大量标注信息和统计数据。而这样的信息在各类领域知识库中很
近些年来,随着互联网技术的快速发展和移动终端用户数的飞速增长,网络媒体和社交平台等舆论场成为网络舆情的展示平台。对媒体和社交平台的数据进行挖掘对企业和机构有着重要的战略意义。然而,如今互联网上的数据有着体量大、种类多、产生速度快的特点,这些特点使得舆论场数据所包含的信息密度下降。低信息密度的数据会导致决策的正确性大幅度降,所以对舆论场数据的信息密度,也就是本文提到的舆论场数据质量,进行核查、度量、预警等监控操作是数据战略中必不可少的一部分。
  本文的目标是设计支持实时预警的可信度高的舆论场数据质量
随着数字、网络、视觉传播技术的发展,多媒体数据也呈现日益增长的趋势。这些丰富的数据资源为跨模态数据的信息挖掘、理解和分析和等相关研究带来了许多新的挑战。比如,信息检索从过去的单媒体迈向了跨媒体的新时代。此外,多样化的数据和用户多元的需求也催生了很多新兴的跨模态任务,比如视觉问答,模型需要根据一张图像和一个问题,预测出相应的答案;再比如文本到图像生成,模型需要根据一段文本描述来生成高质量的图像。不论是传统的跨模态检索任务,还是新兴的跨模态信息交互和生成任务,从本质上来看,都是不同模态信息的映射与转化。而对不
随着信息技术的发展,大数据为生活带来便利的同时也造成“信息过载”问题。推荐系统可从用户的历史行为数据中挖掘用户的潜在喜好并推荐令其满意的物品,从而有效解决“信息过载”问题。早期的推荐方法研究主要利用显式反馈数据。然而,这类数据往往需要用户显式地给物品打分,数据成本高、数据量小,影响这类推荐方法在推荐系统中的发挥。因此,近年来关于推荐方法的研究热点逐渐从显式反馈数据转移到大规模的隐式反馈数据中。隐式反馈数据可以直接来源于用户的各种行为,具有成本低、应用广、规模大等优点。
  为大规模隐式反馈数据设计一
随着获取高分辨率数据技术的进步,获取到的数据量随之增大。I/O速度的提高远落后于计算能力的增强,因此给后续的数据可视化任务带来了极大的挑战。
  本文围绕用有限硬件资源平台上快速高效的绘制TB级体数据这一任务,利用现代图形硬件和API,结合其并行和多线程能力,设计并实现了大规模体数据可视化系统。本文使用基于虚拟内存方式的工作集管理的大规模体数据绘制方法,为了在保证绘制质量的前提下减小I/O,加入了基于GPU视频编码解码以及混合分辨率技术。同时,本文利用现代图形API的多线程友好的特性,以多线程的方式
3D人体骨骼动画驱动技术是动画电影、游戏等产业依赖的重要技术,具有很高的市场价值。其中,人体动作数据的采集是3D人体骨骼动画驱动的基础,传统的方法主要依靠动作捕捉来进行采集,场地和设备架设复杂,成本很高。随着近年来学术界在3D人体关键点检测领域不断取得的进展,低成本的人体动作数据采集逐渐成为了可能。然而,目前已有的检测算法的计算复杂度过高,难以在移动端实时运行,而且利用检测算法采集到的人体运动数据,由于固有的局限性,缺失骨骼自旋自由度等信息,无法直接用于骨骼动画驱动。
  针对当前的问题,本文从泛化
摘 要:文章从我国创意产业园的发展现状入手,以深圳为例,对深圳创意产业及创意产业园的发展现状进行了调查研究,对深圳创意产业园的发展模式及存在的问题进行了总结和梳理,并提出发展创意产业园的策略和建议,以期对我国创意产业园的有序经营与科学发展具有启示作用。  关键词:创意产业 创意产业园 发展模式  中图分类号:F207 文献标识码:A  文章编号:1004-4914(2014)10-037-03  
期刊