三维场景下视觉注意力预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhucaiguai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的蓬勃发展,机器智能水平不断提升,人机协作场景的应用越来越受到人们的关注。在人机协作应用中,人和机器位于同一场景中互相合作,不仅要求机器智能被动执行人的指令,更希望实现机器智能对人类行为意图的主动观察和理解,以实现自然交互与协同工作。但是,人类行为意图属于高级语义层面,对其进行计算和预测是一项非常具有挑战性的难点问题。考虑到在一般情况下,人的思维意图和人的视觉注意行为息息相关。因此,利用计算机视觉技术从机器人视角对场景中的人类视觉注意进行预测就成为意图预测领域的重要突破方向。但传统的视觉注意预测方法在应用于以上研究方向时存在两方面的局限:1)传统方法大部分针对二维图像上的视觉注意预测,难以克服人机协作三维空间下的场景和物体遮挡问题;2)传统的视觉注意预测方法侧重于从第一人称视角预测人在观察图像数据时的视觉关注点,无法应用于从第三人称视角预测图像中的人的视觉注意方向和关注物体。针对以上问题和挑战,本文针对三维场景下的第三人称视觉注意方向和关注物体预测方法展开研究。主要研究内容如下:(1)鉴于肢体动作与视觉意图之间的相关性,本文提出一种基于人体骨架信息的视觉注意预测算法。该算法从三维场景的深度图序列中提取出人体骨架信息作为肢体动作的表达形式,并结合深度学习下的时空域联合预测框架实现连续的视觉注意方向预测。同时,在空域骨架结构上设计分区处理的神经网络结构以及置信度权衡机制以强化更具分辨力的肢体动作,并抑制无关动作以及噪声的影响。相比于同类算法,本算法在相同数据集上可以获得更精确的注意视线方向预测。更进一步地,本算法利用三维空间中的注意视线方向可以准确分割视觉关注物体,并在具有遮挡情况的场景中具有较好的鲁棒性;(2)针对人物正面头部图像可高质量获取的应用场景,本文提出了一种基于骨架、头姿等多模态信息联合预测的三维注意力预测算法,以获取更加精确的预测效果。该算法采用头部图像、肢体动作信息以及场景三维信息作为多模态输入,并连续预测三维场景中的视觉关注物体。针对时域信息挖掘、肢体动作分区利用的问题,算法设计基于时空图的神经网络模型实现基于多模态信息的特征提取;针对多模态特征的融合问题,算法设计时域融合层以充分挖掘不同模态特征之间的相关性与互补性;最终,本算法在数据集上取得了更好预测精度,同时面对序列动态性变化具有较好鲁棒性;(3)为算法的训练测试,本文还创建了首个开源的大规模第三人称视觉注意预测数据集。数据集面向12个参与者各采集40种不同日常动作序列,最终形成包含7189个视频序列以及830160帧的多场景、多人物、多动作类型的多模态数据标注,包括三维注意力方向、头部彩色和深度图像、肢体骨架数据等。基于以上研究内容,本文可以实现人物正面头部图像可否高质量获取的不同应用场景下的第三人称视觉注意力预测。对于在三维场景下自由活动的人物,本文可以实现对其视觉注意力方向的连续预测,并可以预测其视觉关注物体。
其他文献
加强高校辅导员队伍建设是应对时代发展的必然要求,是解决现实困境的必由之路,更是推动高校立德树人的切实支撑。队伍的流动性现实与稳定性需求、结构失衡与多元需求、专业素养欠缺与专业化要求形成了三组突出的现实矛盾,给辅导员队伍建设质量和思想政治教育工作实效提升造成阻力。因此,应从加强顶层设计、构建制度保障,提升内生动力、增强职业认同,完善发展体系、促进多元发展积极探索辅导员队伍高质量建设的可行路径。
期刊
报纸
面部表情在人类沟通交流中发挥着重要的作用。随着人们对人机交互要求的提高,自动识别与理解人脸表情成为研究热点,其中基于深度学习的人脸视频表情识别由于其优越性能受到大批研究者关注。目前为止,大量工作针对特定表情强度顺序的视频片段,如中性帧-峰值帧,展开研究且取得了良好的性能。然而,在实际应用场景中,如何获取到与训练数据分布接近的特定表情强度视频片段仍有待研究。同时,测试时自动截取的视频片段不可避免与训
学位
脑动脉瘤是脑部动脉血管局部凸起或膨大形成的类似瘤状的物体,其对应位置血管壁较薄,破裂风险高,一旦破裂容易导致颅内出血并威胁生命。目前医学上常用的快速诊断脑动脉瘤的技术是计算机断层扫描血管造影(CTA)。该项技术在带来快速成像的便利(广泛用于急诊)的同时,也包含了复杂的背景噪声,这增大了放射科医生阅片的难度。面对机器获取到的复杂3D CTA影像,放射科医生往往需要花费较长的时间进行阅片诊断。对于一些
学位
近年来随着深度学习的兴起,图像处理分析的研究日新月异,在许多领域取得了瞩目的应用和研究进展。在医学临床实践中,患者影像数据是诊断治疗的重要参考,大规模的医疗影像数据处理分析需求与日俱增,自动化的影像分析工具和算法具有重要的临床实用价值。在医学图像分割任务中,医学影像常常面临图像数据对比度低,组织器官边缘模糊且难以分辨,导致图像分割过程中容易出现类内不一致和类间不易区分的问题,进而损害分割结果的完整
学位
通过耦合基于反应类的全局敏感性分析方法、组分敏感性分析方法、解耦法及遗传算法,构建了RP-3航空煤油模型燃料(14%正癸烷/10%正十二烷/30%异十六烷/36%甲基环己烷/10%甲苯,摩尔分数)的简化反应机理。以甲基环己烷为例(其它组份类似),详细论述了其骨架反应机理的构建过程。采用基于反应类的全局敏感性分析方法,对甲基环己烷的燃料相关子机理中重要反应类进行了识别,并基于组分敏感性分析方法对重要
期刊
视频目标分割和补全是计算机视觉领域的重要问题,其目的在于对视频中的特定目标进行像素级跟踪和补全被遮挡部分,它是视频编辑、无人驾驶、影视特效生成等应用中的关键技术。视频目标的分割和补全这两个任务的共性在于其都需要一部分已知的目标信息(第一帧目标掩码和目标可见部分)去推断后续帧目标位置和当前帧目标被遮挡的外观,如何利用视频中的时序信息和目标的内在结构等先验信息来设计对应任务的深度神经网络是本文的主要研
学位
免疫失衡机制在慢性荨麻疹的发病机制中占据主导地位,既往认为Th1/Th2失衡是慢性荨麻疹发生的主要免疫机制。但近年来,研究发现Th17/Treg失衡亦是导致慢性荨麻疹发生的重要免疫机制。中医对慢性荨麻疹病因病机的认识比较全面,一般多认为其发病多为先天禀赋不足,卫表不固,复感六淫之邪;或饮食失节,积热生风;或久病虚弱,气血失养。故治疗上,实证宜疏风散邪,清利湿热;虚证宜补益气血,扶助正气;虚实夹杂则
期刊
时下,人们对视频服务的要求越来越高,对超高清、高帧率、沉浸式视频的需求日益增长,随之而来的便是海量视频数据存储和传输的巨大挑战。尽管在5G时代中,网络传输速率更快,但通过提升视频编码技术性能,更高效的压缩海量视频数据,才是解决存储和传输问题的根本。由于时域相关性是视频信号最重要的特性,因此帧间预测编码成为了视频编码的核心。高效视频编码(High Efficiency Video Coding,HE
学位
随着计算机技术的快速发展,人工智能热潮迅速兴起。自动驾驶、移动机器人和无人机导航避障等技术成为研究热点。这些智能化应用往往需要使用相机去感知场景中物体的运动信息和绝对深度信息,即通过预测连续时刻图像稠密的光流,获取场景中物体的运动信息;通过预测双目相机左图和右图的视差,计算场景的绝对深度。这些信息既可以作为无人驾驶和自主机器人的指导信息,也可以用于场景的三维重建与增强现实等领域。在现有的光流和深度
学位