论文部分内容阅读
人体运动捕获数据是一种新型的多媒体数据,在电影、游戏、机器人等领域都得到了广泛的应用。该数据在每一个捕获时间点记录了人体关节的朝向或位置,形成一个运动帧序列。专业的运动捕获设备能够获取高精度的运动数据,在多种应用中逼真地还原出人体运动,给人带来震撼的视觉感受,因而得到了大众的追捧。但是,专业的运动捕获设备的价格十分昂贵,普通用户难以负担,所以运动捕获一般只有大型的公司或者研究机构才能完成,无法得到普及。运动重用技术能够利用已有的运动数据,通过分析和建模生成满足用户需求的新数据,有效降低了使用运动捕获数据的时间、金钱和人力成本,因而受到了广泛的关注,已经成为了一项十分热门的研究课题。 运动重用的研究包含了一系列相关技术,如运动分割、运动恢复、运动去噪、运动压缩、运动检索、关键帧提取和运动合成。早期的相关方法多是从运动学和图形学角度进行研究,缺乏对运动数据特性的有效建模,后来也出现了一些基于机器学习方法的运动重用技术,但这些模型多是将一些经典的机器学习算法直接用在了运动数据上,效果并不是很理想,因此本学位论文从机器学习的角度,针对运动分割、运动恢复、关键帧提取和运动合成任务分析运动捕获数据的一些重要特性,设计了一些适用于运动捕获数据的定制型的机器学习算法。本学位论文的主要工作和创新性成果如下: (1)提出了一种鲁棒的时序稀疏子空间聚类算法,解决了含非高斯噪声的运动捕获数据的分割问题。在稀疏子空间聚类的框架下,使用测地线指数核对运动捕获数据的黎曼流形结构进行建模;用相关熵代替原本的二阶统计量进行误差度量;用三角约束阻断相距较远的运动帧之间的联系,从而保证了分割结果的时序连续性;用多视图重构提取了关节间的关系信息,并将其用于最终的分割。因此,由于对运动数据的一些特性有效的建模,使得提出的模型不仅能够完成时序分割任务,还能抑制运动捕获过程中产生的非高斯噪声。此外,由于三角约束的引入,将传统的稀疏子空间聚类模型的二次复杂度降为了线性。 (2)提出了两种基于稀疏性的运动恢复模型,分别利用运动数据的稀疏和低秩特性完成运动恢复任务。首先,在稀疏表示的框架下,将运动恢复的过程加入到字典学习算法中,即求取不完整运动帧的稀疏表示系数,再用该系数更新完整的字典,使得学习得到的字典在理论上更适合运动恢复。接着,为解决上述方法out-of-sample的问题,提出了一种非线性的低秩矩阵恢复模型。在该模型中,通过多核学习寻找运动捕获数据的特征空间,在其特征空间中,运动数据是线性的并且具有天然的低秩性,从而可以使用低秩恢复对丢失的关节进行恢复。此外,引入运动学约束不仅保证了恢复运动的运动学特性,还可以作为运动恢复的先验知识,有效地压缩优化算法的搜索空间。 (3)提出了一种联合核稀疏表示模型,有效地利用运动捕获数据的稀疏特性进行关键帧提取。在该模型中,利用测地线指数核将运动数据投影到希尔伯特空间,假设运动数据在希尔伯特空间中是线性的,以运动本身作为字典,便可以对运动数据进行稀疏表示。用Lp,2(0<p<1)范数代替L1,2范数,以解决传统稀疏表示模型提取的关键帧冗余的问题。为每个关节分配一个单独的重构系数矩阵并进行联合的稀疏表示,使得重构系数矩阵能够获得嵌入在运动中的更为细节的信息。此外,三角约束的使用使得在优化的过程中每个运动帧都只能被其一定范围内的相邻帧表示,有效解决了周期性运动关键帧分布不合理的问题。 (4)提出一种模板化的运动合成模型,简化了运动合成方法的控制方式,提高了运动合成过程的可理解性。利用稀疏主成分分析(Sparse principal component analysis,SPCA)、Group lasso和Exclusive group lasso对人体运动进行建模,学习得到一组低维参数,分别控制着人体运动的一个内在自由度,并具有直观语义;同时,每个关节被尽量少的低维参数所控制,以减少低维参数对彼此所控制的自由度的交叉影响。通过直观地修改低维参数,就能够实时地控制每个参数对应的摆臂幅度、踢腿高度、跳跃距离等运动属性。这种“模板学习、模板定制”的两步方法,有效地降低了运动合成控制的复杂度和运动合成技术的应用门槛。