基于视频的人机交互及其关键技术研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:zhongbeiljb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机交互技术的发展,各种新的交互手段不断涌现,使人机交互朝着更加自然、高效和更加智能化的方向前进。基于视频的交互(VBI,VisionBasedInteraction)或基于摄像头的交互(CBI,CameraBasedInteraction)就是近年来出现的新型交互技术之一,并且受到了广泛的关注。通过基于视频的交互方式,人可以按照自身行为习惯完成交互动作,由摄像头感知人的动作和行为,并由计算机进行视频数据的分析与理解,然后自动地完成交互任务,整个过程甚至可以忽略计算机与摄像头的存在。基于视频的交互在虚拟现实、普适计算等领域越来越受到研究人员的重视,并将成为主流交互方式之一。   视频手势交互是VBI的主要方式,手势具有丰富的形状与动作信息,其直接操纵的特点特别适合3D交互任务的完成,但由于人手是一个复杂的变形体,手势本身具有的复杂性、多义性,以及时间与空间上的差异性等特点,使对其进行分析与理解成为一项极富挑战性的研究课题。   基于视频的交互是涉及计算机视觉、数字图像及视频处理、模式识别、人机交互以及行为心理学等多种学科的技术,本文主要针对VBI的交互框架与关键使能技术两个方面进行了研究。基于视频的交互框架研究从总体角度概括了基于视频交互的基本特性,对交互系统开发与具体技术路线应用具有重要的指导意义。针对视频手势交互,本文对其关键使能技术进行了研究,包括视频手势的分割、连续视频跟踪、动态手势建模及理解,并提出了有效的算法或解决方案。   本文主要的创新性成果可归纳为以下五个方面:   1、VBI的STEF交互框架。   首先系统地分析了基于视频交互的基本特点、它的输入输出结构及其主要的计算环境一普适计算、虚拟现实与计算机支持的协同计算环境,在此基础上提出了一种基于视频交互的框架一STEF(Scene,Task,EventandFeedback)模型。STEF模型是一种面向任务的以视觉事件为驱动,并具备反馈机制的循环结构模型。该模型可为基于视频的交互界面(VBUI,Vision-BasedUserInterface)研究及应用程序设计提供总体指导。   2、基于模糊集的手势图像分割方法。   提出了一种新的基于模糊集理论的手势分割方法,定义了三种不同的手势模糊集,以及在模糊集合基础上的模糊形态学处理方法,实现了在连续的视频帧中手区域的精确提取。并且进一步利用图像金字塔技术实现了对手势图像的多分辨率分析,成功实现了手指与手掌部位的分离。   3、一种面向实时交互的视频手势跟踪算法。   针对基于视频手势的实时交互任务,提出了一种快速连续的变形手势跟踪方法,它结合了基于模型与基于表观方法的特点,使跟踪过程建立在对目标对象一手势的理解基础之上,通过识别静态手势并将其模型与图像特征相匹配,实现了自动跟踪初始化和跟踪失败后的自动恢复。跟踪过程中能够动态地更新跟踪模板,以适应多关节手势不断变化的外观轮廓。通过将复杂的高维度特征向量分解为多个2D跟踪模板,跟踪计算量大为减小。   该方法还将K-Means聚类与粒子滤波ParticleFilter算法相结合,成功解决了多手指互相干扰的问题。通过跟踪检测实现了目标丢失后的自动恢复,保证了交互的连续性。实验证明,这种方法可以实时地跟踪外观不断变化的手区域与手指尖位置,是一种有效的变形手势跟踪方法。   4、基于HMM-FNN模型的复杂手势识别算法。   提出一种新颖的HMM-FNN模型,它是一种结合了隐马尔可夫模型(HMM,HiddenMarkovModel)的时序建模能力与模糊神经网络(FNN,FuzzyNeuralNetwork)的模糊逻辑表达与推理能力的模型,HMM对观察值序列的似然概率作为各子类别的模糊隶属度,通过模糊神经网络的模糊推理得到最终输出结果。针对复杂的动态手势,提出了基于HMM-FNN模型的手势建模与识别方法。它充分利用了动态手势本身的特点,即动态手势运动特征的可分解性与语义描述上的模糊性,将其分解为手形变化、2D平面运动与Z轴方向运动三个组成部分,通过对手及手指指尖的位置跟踪,获得三组特征值序列作为HMM-FNN模型的输入数据。   与普通HMM模型相比,该方法在对复杂动态手势识别时,通过利用手势本身的特点将复杂问题进行分解,避免了用高维度特征对手势进行描述,从而降低了运算复杂度,提高了系统性能。此外该方法还充分考虑到手势的模糊特性,并通过FNN的形式进行模糊规则的建模与模糊推理,较之简单的确定性推理,系统的鲁棒性得到增强。HMM-FNN模型还充分利用了人的先验知识,在模糊规则的构造与网络连接结构上进行优化处理,提高系统的训练与识别效率。   5、层次化的交互手势建模与理解方法。   针对虚拟现实环境下的交互手势,提出一种层次化方法对交互手势进行建模与分类。根据交互手势的运动特征和交互特点,本文首先给出了一种新的层次化交互手势类型划分方法,然后对不同类型的交互手势通过不同的模型进行描述与表示,这样就避免了采用单一模型导致效率不高的问题。在层次化建模的基础上进行识别和理解,这是一个由粗到精的过程,通过滑动窗技术实时提取手势的全局统计特征,实现手势类别的粗略划分,然后根据各类手势不同特点采用不同的分析方法,从而完成交互任务。此外,交互环境及上下文信息被用以辅助手势的类别划分,提高了识别效率。   基于视频的交互研究具有较高的应用价值和良好的应用前景,目前的研究工作还处于初级阶段,需要进一步解决的问题仍然很多。但本文作者相信,随着计算机科学的发展,以及多学科多领域知识的进一步融合必将大大推动该方向研究的进展,基于视频的交互方式终将进入人们的日常生活,与其他交互方式一起共同构建一个更加自然、和谐的人机交互环境。  
其他文献
Adhoc网络是一种分布式的无线多跳网络。节点依赖彼此间的合作实现信息的交流。尽管针对军事行动、抢险救灾等特殊应用的Adhoc网络可以确保节点间相互合作,但是当节点分别属于
计算机已经进入多核时代,从Intel,AMD,Sparc到PowerPC,CPU的设计者们不再追求单核的高频率而是向多核发展,现在的双核乃至四核CPU已经成为了主流。多核的出现将迫使改变原有的程序
概念格理论作为一种知识表示和数据分析的形式化工具,在理论研究和实际应用中都具有重要的意义,形式概念分析已经在众多的领域获得了成功的应用。但是在基于关系数据库的信息管
随着越来越多的数据开始采用XML进行描述、存储、交换和展现,面向XML文档的信息检索能力变得日益重要。由于XML文档的半结构化特征,对于XML文档的信息检索技术不仅要满足内容需
报表是展现数据的一种工具,是企业应用系统的重要组成部分,在企业应用系统的开发过程中,往往由于市场环境的多变导致报表应用需求的多变,对报表的开发、维护成本一直很高,给企业应
J2EE(Java2 Platform Enterprise Edition)是一个基于Java2平台独立的、可移植的、多用户的、安全的企业级平台标准,它克服了传统Client/Server模式的弊病,迎合了Browser/Serve
随着感知和通信技术的发展,无线传感器网络在军事和民用特别是环境监测领域已经得到了广泛的应用。轮廓查询在涉及多目标决策的无线传感器网络应用中起着非常重要的作用。尽管
多核处理器已经成为处理器体系结构的主流发展方向。多核处理器中,高速缓存(Cache)结构通过将共享存储空间中的数据缓存在本地,加速了数据获取的过程,同时也带来了多核间数据一
查找效率问题是构建P2P网络的一个根本性问题,利用分布式哈希表,结构化的对等(Peer-to-Peer,简称P2P)网络具备了较少的路由跳数,然而此路由跳数只是P2P覆盖网络中的路由跳数,并没
随着Web的迅速发展和普及,可以获取信息的种类和结构日益丰富,从传统关系数据库到分布于Web上的大量半结构化信息,以及日益增多的HiddenWeb数据信息。如何实现基于Web的分布式信