论文部分内容阅读
随着人机交互技术和虚拟现实技术的不断进步,物理世界和虚拟世界的界限越来越模糊,越来越多的计算机系统呈现出“拟人化”的特点。“拟人化”计算机系统借助各种传感器“感知”客观世界,响应简单的体感交互动作,提升用户体验。人工智能科学的快速发展,又使得这种“拟人化”的计算机系统变得越来越智能化和精细化。“拟人化”计算机系统能够主动观察、学习、识别和响应人体动作,构建出沉浸感更强的虚拟现实环境。眼部与四肢的动作是人体动作的代表,他们之间的并发配合实现了大部分人体注意焦点的选择。因此,对眼部与四肢交互动作的研究具有重要意义。本文以眼部和四肢交互动作为研究对象,从以下四个方面展开研究:(1)如何满足虚拟现实环境中自然人机交互系统的实时性和准确性要求;(2)如何提取眼部二维动作的特征并快速建模;(3)如何提取四肢三维动作的运动特点并快速建模;(4)如何构建一个可以同时处理二维和三维并发动作的统一机器学习模型。本文的主要贡献和创新点如下:(1)提出了针对眼部和四肢的并发交互动作学习与识别的混合集成学习模型。新模型融合了误差反向传播模型、增量型极限学习机模型和集成学习模型,包含多个子网络,每个子网络学习与识别不同类型的动作。该模型为眼部与四肢交互动作的识别提供了一个统一的学习模型,能够同时处理眼部与四肢并发的交互动作,很好地克服了其他方法的训练速度慢、模型不稳定、网络结构复杂等缺点。理论上,新模型只需要较少的隐含层节点并通过多次自增长就可以使得网络的输出误差逼近到零。实验验证了新模型对比其他机器学习模型在较少隐含层节点和样本数量条件下,具有更高的分类准确率、更快的学习过程、更稳定的学习效果、更能符合眼部和四肢交互动作学习与识别应用的准确性和实时性要求。(2)提出了基于混合集成学习模型的眼部动作的建模与识别方法。该方法在混合集成学习模型的基础上,融合了图像拓扑分析技术和哈尔特征模型,很好地克服了其他方法在自然人机交互应用场景下的局限性。本文以车辆驾驶员的疲劳驾驶智能监测为例,通过对比实验验证了新模型相比于其他方法在恶劣条件下对眼部动作的建模与识别具有更好的鲁棒性、更高的识别率和更短的学习过程。(3)提出了基于混合集成学习模型的四肢动作的建模与识别方法。新方法包含三个部分:1)基于三维动作历史图像的四肢动作建模;2)基于三维Hu不变矩的四肢动作表征;3)基于混合集成学习模型的四肢动作学习与识别。在对比实验中,本文以标准交通指挥手势作为四肢动作的识别样例,通过一系列不同实验条件下的对比实验,验证了新方法比BP算法、支持向量机和深度置信网络等方法更能适应虚拟现实中自然人机交互应用场景下的要求。最后,将眼部与四肢交互动作建模与识别方法应用于交通信息展示系统中,有效地解决了眼部与四肢动作数据结构复杂、分批学习、模糊性高等问题,为眼部和四肢动作的学习与识别过程提供了一个统一的实际应用场景,使得用户可以通过手眼协同配合实现注意焦点的选择。