论文部分内容阅读
【摘要】:作为新一代实用人机交互方式,手势识别正受到人们越来越多的关注。本文首先介绍了当前手势识别技术的具体流程与发展情况。并基于目前手势识别对硬件需求的现状,探讨了将基于表观的实时手势识别技术应用于机顶盒等低速硬件设备的前景。
【关键词】:手势识别 机顶盒 人机交互
近年来,随着“智慧家庭”和“三网融合”等概念的兴起,家庭多媒体设备功能日趋完善,其控制与使用也变得越来越复杂,如何使家庭多媒体设备与正在兴起的家庭物联网设备控制与操作实现简单化、统一化、易用化成为相关行业亟待解决的问题。
在日常生活中,对多媒体设备的控制主要依赖于遥控器,虽然人们一直在不断改进和强化遥控器功能,但这并不能从根本上解决遥控器操作复杂的问题。从古至今,语言和图像交流是人们主要的沟通与交流方式,手势则是一种日常、自然的信息交流方式,人们可以通过简单自然的手势表达复杂的信息。而手势识别研究的主要目的就在于使硬件系统能够识别人的手势信息,以使用户能够直接利用手势去驱动系统的具体应用,从而改善用户的操作体验。
随着有线数字化的推进,机顶盒在客厅设备中所扮演的重要角色使得用户对机顶盒的人机交互友好度提出了更高的要求。基于此,如何通过手势识别成为相关企业改进机顶盒的控制方式一种很好的思路,本文的目的就在于探索通过手势识别,实现机顶盒控制的可能性。
基于视觉的动态手势识别技术
随着摄像头成像精度的提高及算法的不断改进,动态手势识别的识别率正在逐渐提高,其识别方式逐渐从数据手套识别、色彩手套识别向裸手识别方向快速发展。
目前手势识别一般是利用单个摄像头,通过对手进行二维建模的方式实现识别,也可利用多个摄像头对手进行三维建模,从而实现手势识别。由于后者运算量大,对硬件设备的要求高,考虑到机顶盒的硬件条件,本文主要集中介绍通过二维建模实现动态手势识别型技术。
目前基于表观的手势识别基本流程分为:手势图像信号的输入,手势分割、手势分析及手势识别,最后系统根据判断出的手势驱动具体的应用。
1.手势分割
手势分割就是将在摄像头中采集到的视频送入系统后,系统将视频流分为一帧帧进行分析,并从图像中分割出手所在的图形区域,以供下一步系统建模的过程。目前在技术上存在多种手势分割方式,主要包括根据肤色、运动情况、模板匹配、背景差分及综合模式等。
根据测试结果,以上几种分割方式均有自己的缺点与环境适应性,一般而言,肤色分割与其他分割方式相搭配可在分割精度与计算量之间取得一个较好的平衡点。
2.手势分析
当成功将手从背景中分离出来之后,就要对手建立模型并实现识别。这一步的主要意义在于提取当前帧手势的特征,从而使系统根据分离结果的特征确定当前手势中的信息代码。在确保有足够冗余的前提下,确定手势的特征越少,计算机负担就越轻。在实际情况中,由于在不同的环境中,同一个特征提取方案的效果并不相同,很难挑选出最佳的提取特征,因此确定需要从图像中提取的哪些特征是最为重要的。
目前常见的几种特征提取指标主要包括:灰度图像、手型区域、手型边界与指尖,针对不同的特征,对应有不同的描述。
3.手势识别
当所需的手势特征被分离出来后,系统就要将时间上连续的一系列手势特征归类,这就是手势识别。在动态手势识别中,建立的模型同时与时间及空间相关。归类完毕后,就可以看见一系列手的轨迹在时间与空间中的运动轨迹。与此同时,要提高手势识别的成功率还可以考虑使用动态手势信号与双手手势信号。
手势识别与机顶盒遥控
目前国内手势识别的实现一般是基于PC机,且一般是实验室产品,更加小型的设备一般无法提供高精度的手势识别所需要的硬件资源。从全球来看,目前,国外手势识别的小型化与实用化走在了国内同行的前列,国外在片上实现手势识别的技术主要分为三种模式:基于CPU、FPGA及专用手势芯片。
在基于CPU的识别系统方面,BW Miners的论文显示其基于HMM模型系统在20138μs内就能完成一次完整的动态手势识别流程;在基于FPGA识别技术方面,早在2004年,V Bonato等就使用EPIS10F780C6实现了对7种手势的识别,且识别率高于99%,其共使用了2954个逻辑单元,占用235Kb的存储空间。
在专用手势识别芯片方面,目前二维手势识别技术较为成熟的厂商为GestureTek公司,2011年七月下旬,高通宣布收购GestureTek手势识别技术,并将其引入现有以及未来的Snapdragon芯片中,但Snapdragon芯片作为一款手机处理器,并不适用于机顶盒。
其他开发手势识别芯片的公司还包括Canesta公司及IDENT公司,但这两家公司的芯片主要用于三维手势识别。幸运的是,今年11月月初,德州仪器宣布,将在其明年发布的OMAP 5处理器中加入手势识别功能。
从目前情况看,由于三网融合对音视频通信的需要,机顶盒内置摄像头将成为一个标准配置,手势识别需要的图像采集设备已经不是问题,其他硬件诸如RAM等也已完全符合手势识别的技术要求,出于成本考虑,目前国内有线运营商商大规模应用的机顶盒CPU频率基本在1GHz以下,因此,目前要实现高质量手势识别的主要瓶颈在于CPU。
而要在机顶盒上低成本实现手势识别,最终还是要依靠CPU方式。随着高清及双向互动业务的快速发展,频率超过1GHz CPU的机顶盒已开始出现,其为直接使用CPU实现实时计算的手势识别提供了可能性,如果在外围配合一定的数字信号处理芯片,通过在图像预处理等阶段协助CPU进行视频信号处理,以减轻CPU负担的方式,则现阶段通过CPU方式实现手势识别是完全可行的。
更重要的是,强终端型机顶盒在单纯收看视频时大量的CPU运算资源基本处于闲置状态,这种状况非常有利于运营商基于机顶盒开发手势识别等应用功能。
结语
目前手势识别应用的最大阻碍为识别的可靠性及成功率,其中对识别率影响较大的环节为手势分割与手势分析技术,由于系统在进行手势分割时需要面对复杂多变的外界环境,而外界环境中颜色与光照的变化及其他物体的干扰,都会降低系统进行手势分割的准确率,导致系统计算负担加重,从而影响系统的识别率,随着技术的进步与成熟及算法的进一步优化,笔者相信这些都将得到逐步的解决。
综上所述,对有线运营商来说,机顶盒作为客厅设备的重要一员,在可以预见的未来,用户对其易用性的要求会越来越高,而可大幅提升用户体验的手势操控等新一代人机交互技术将会逐渐成为满足用户易用性需求的重要手段。
同时作为物联网应用技术之一,机顶盒手势识别也可以与其他相关设备有机地整合成一个整体,通过机顶盒实现对家庭其他相关多媒体和其他电子、电气设备的控制功能;可以通过多媒体影音中心或其他设备实现对机顶盒在内的多媒体设备的集中控制,此外,运营商还可以利用机顶盒内置的摄像与图像处理功能,进行监测、监控功能等方面各项物联网应用的综合开发。
可以预计,基于手势识别技术的操控方式将会很快变为现实并被市场所广泛应用。
【关键词】:手势识别 机顶盒 人机交互
近年来,随着“智慧家庭”和“三网融合”等概念的兴起,家庭多媒体设备功能日趋完善,其控制与使用也变得越来越复杂,如何使家庭多媒体设备与正在兴起的家庭物联网设备控制与操作实现简单化、统一化、易用化成为相关行业亟待解决的问题。
在日常生活中,对多媒体设备的控制主要依赖于遥控器,虽然人们一直在不断改进和强化遥控器功能,但这并不能从根本上解决遥控器操作复杂的问题。从古至今,语言和图像交流是人们主要的沟通与交流方式,手势则是一种日常、自然的信息交流方式,人们可以通过简单自然的手势表达复杂的信息。而手势识别研究的主要目的就在于使硬件系统能够识别人的手势信息,以使用户能够直接利用手势去驱动系统的具体应用,从而改善用户的操作体验。
随着有线数字化的推进,机顶盒在客厅设备中所扮演的重要角色使得用户对机顶盒的人机交互友好度提出了更高的要求。基于此,如何通过手势识别成为相关企业改进机顶盒的控制方式一种很好的思路,本文的目的就在于探索通过手势识别,实现机顶盒控制的可能性。
基于视觉的动态手势识别技术
随着摄像头成像精度的提高及算法的不断改进,动态手势识别的识别率正在逐渐提高,其识别方式逐渐从数据手套识别、色彩手套识别向裸手识别方向快速发展。
目前手势识别一般是利用单个摄像头,通过对手进行二维建模的方式实现识别,也可利用多个摄像头对手进行三维建模,从而实现手势识别。由于后者运算量大,对硬件设备的要求高,考虑到机顶盒的硬件条件,本文主要集中介绍通过二维建模实现动态手势识别型技术。
目前基于表观的手势识别基本流程分为:手势图像信号的输入,手势分割、手势分析及手势识别,最后系统根据判断出的手势驱动具体的应用。
1.手势分割
手势分割就是将在摄像头中采集到的视频送入系统后,系统将视频流分为一帧帧进行分析,并从图像中分割出手所在的图形区域,以供下一步系统建模的过程。目前在技术上存在多种手势分割方式,主要包括根据肤色、运动情况、模板匹配、背景差分及综合模式等。
根据测试结果,以上几种分割方式均有自己的缺点与环境适应性,一般而言,肤色分割与其他分割方式相搭配可在分割精度与计算量之间取得一个较好的平衡点。
2.手势分析
当成功将手从背景中分离出来之后,就要对手建立模型并实现识别。这一步的主要意义在于提取当前帧手势的特征,从而使系统根据分离结果的特征确定当前手势中的信息代码。在确保有足够冗余的前提下,确定手势的特征越少,计算机负担就越轻。在实际情况中,由于在不同的环境中,同一个特征提取方案的效果并不相同,很难挑选出最佳的提取特征,因此确定需要从图像中提取的哪些特征是最为重要的。
目前常见的几种特征提取指标主要包括:灰度图像、手型区域、手型边界与指尖,针对不同的特征,对应有不同的描述。
3.手势识别
当所需的手势特征被分离出来后,系统就要将时间上连续的一系列手势特征归类,这就是手势识别。在动态手势识别中,建立的模型同时与时间及空间相关。归类完毕后,就可以看见一系列手的轨迹在时间与空间中的运动轨迹。与此同时,要提高手势识别的成功率还可以考虑使用动态手势信号与双手手势信号。
手势识别与机顶盒遥控
目前国内手势识别的实现一般是基于PC机,且一般是实验室产品,更加小型的设备一般无法提供高精度的手势识别所需要的硬件资源。从全球来看,目前,国外手势识别的小型化与实用化走在了国内同行的前列,国外在片上实现手势识别的技术主要分为三种模式:基于CPU、FPGA及专用手势芯片。
在基于CPU的识别系统方面,BW Miners的论文显示其基于HMM模型系统在20138μs内就能完成一次完整的动态手势识别流程;在基于FPGA识别技术方面,早在2004年,V Bonato等就使用EPIS10F780C6实现了对7种手势的识别,且识别率高于99%,其共使用了2954个逻辑单元,占用235Kb的存储空间。
在专用手势识别芯片方面,目前二维手势识别技术较为成熟的厂商为GestureTek公司,2011年七月下旬,高通宣布收购GestureTek手势识别技术,并将其引入现有以及未来的Snapdragon芯片中,但Snapdragon芯片作为一款手机处理器,并不适用于机顶盒。
其他开发手势识别芯片的公司还包括Canesta公司及IDENT公司,但这两家公司的芯片主要用于三维手势识别。幸运的是,今年11月月初,德州仪器宣布,将在其明年发布的OMAP 5处理器中加入手势识别功能。
从目前情况看,由于三网融合对音视频通信的需要,机顶盒内置摄像头将成为一个标准配置,手势识别需要的图像采集设备已经不是问题,其他硬件诸如RAM等也已完全符合手势识别的技术要求,出于成本考虑,目前国内有线运营商商大规模应用的机顶盒CPU频率基本在1GHz以下,因此,目前要实现高质量手势识别的主要瓶颈在于CPU。
而要在机顶盒上低成本实现手势识别,最终还是要依靠CPU方式。随着高清及双向互动业务的快速发展,频率超过1GHz CPU的机顶盒已开始出现,其为直接使用CPU实现实时计算的手势识别提供了可能性,如果在外围配合一定的数字信号处理芯片,通过在图像预处理等阶段协助CPU进行视频信号处理,以减轻CPU负担的方式,则现阶段通过CPU方式实现手势识别是完全可行的。
更重要的是,强终端型机顶盒在单纯收看视频时大量的CPU运算资源基本处于闲置状态,这种状况非常有利于运营商基于机顶盒开发手势识别等应用功能。
结语
目前手势识别应用的最大阻碍为识别的可靠性及成功率,其中对识别率影响较大的环节为手势分割与手势分析技术,由于系统在进行手势分割时需要面对复杂多变的外界环境,而外界环境中颜色与光照的变化及其他物体的干扰,都会降低系统进行手势分割的准确率,导致系统计算负担加重,从而影响系统的识别率,随着技术的进步与成熟及算法的进一步优化,笔者相信这些都将得到逐步的解决。
综上所述,对有线运营商来说,机顶盒作为客厅设备的重要一员,在可以预见的未来,用户对其易用性的要求会越来越高,而可大幅提升用户体验的手势操控等新一代人机交互技术将会逐渐成为满足用户易用性需求的重要手段。
同时作为物联网应用技术之一,机顶盒手势识别也可以与其他相关设备有机地整合成一个整体,通过机顶盒实现对家庭其他相关多媒体和其他电子、电气设备的控制功能;可以通过多媒体影音中心或其他设备实现对机顶盒在内的多媒体设备的集中控制,此外,运营商还可以利用机顶盒内置的摄像与图像处理功能,进行监测、监控功能等方面各项物联网应用的综合开发。
可以预计,基于手势识别技术的操控方式将会很快变为现实并被市场所广泛应用。