论文部分内容阅读
随着计算资源和用户需求的快速增长,直观、自然并且能够适应各种交互环境的感知计算成为研究热点。本文面向体态和手势这两种常见的感知通道,系统地研究其中的问题挑战及其解决方法。随着人们对于姿态恢复和手势识别的精确性和易用性越来越高的要求,缺乏先验知识表示、准确率与时延折中、标定过程繁琐以及有标数据不足等关键问题与挑战交错叠加。首先,一些人类熟知的有助于解决感知问题的先验知识难以直接嵌入在基于深度机器学习的端到端的感知计算方法中;其次,现有的基于肌电信号的手势识别方法难以同时做到高准确率和低时延;再次,现有的基于肌电信号的手势识别方法通常需要用户在每次佩戴设备后先进行严格的标定;最后,现有的基于肌电信号的手势识别方法依赖于大量的具有手势标签的训练数据,然而这些有标记的训练数据通常难以获得。本文重点面向上述问题和挑战,在深度机器学习框架下设计针对性的解决方法,主要创新点包括:(1)针对基于无标记单目相机的体态感知中缺乏先验知识表示的问题,提出了一种新的先验知识的表示方式——高度图——用于从单目相机拍摄的视频中精确地恢复三维人体姿态。在此基础上,提出使用双流深度卷积网络融合彩色图像和高度图两种输入信息来估计二维人体姿态,充分利用了人体各部位的高度这一先验信息来提高二维姿态估计准确率;提出一种新的带有时序一致性约束的目标函数,用于从估计出的人体关节点的二维人体姿态序列中恢复出对应的三维人体姿态序列,利用人体姿态和相机参数在时间上的连续性来提高三维姿态估计的准确率。(2)针对基于肌电信号的手势感知中准确率与时延折中的问题,发现了瞬时的高密度肌电信号中存在特定的模式,这一发现使得基于瞬时肌电信号的手势识别成为可能。基于这一发现,提出肌电图像的概念,以及基于瞬时肌电图像和深度卷积网络的手势识别框架。该方法可以在提高基于肌电信号的手势识别准确率的同时降低时延。(3)针对基于肌电信号的手势感知中标定过程繁琐和有标数据不足的问题,提出了基于深度机器学习的无监督领域自适应框架,从而提升基于肌电信号的会话间手势识别的准确率,同时降低模型适配过程中所需要的用户交互的复杂度。该适配方法无监督和增量地更新模型中的统计量参数,适配贯穿整个交互过程,而不是仅在特定的阶段执行。(4)针对基于肌电信号的手势感知中缺乏先验知识表示和有标数据不足的问题,提出了基于半监督深度机器学习的肌电手势识别方法,在训练阶段利用数据手套采集的手部三维姿态数据和肌电信号内在的动态特性,从无标记的肌电信号中学习有用的特征表示;然后利用该特征表示在识别阶段从肌电信号中识别手势。该方法在有标训练样本不足时可以显著提高手势识别的准确率。