论文部分内容阅读
最近几年,随着各种智能设备如手机、平板电脑、智能电视等的普及,人与计算机之间的交互活动越来成为人们日常生活中不可或缺的一个重要组成部分。自然人机交互系统充分利用了这些身体语言来进行人与机器之间的交互。其中,手势是很重要的一种手段。本文将尝试设计一个简单的基于视觉的手势交互系统原型,其最终目的是用人手模拟计算机鼠标的功能。该系统设计的关键功能是实时地跟踪并检测人手的位置、状态并输出结果。
在计算机视觉领域,实时目标检测与跟踪是指在一个视频流(通常是由摄像机实时拍摄的画面)中跟踪一个或多个具有选定特征的目标的过程。目前,静止图像中目标检测(如人脸检测)的相应技术已经非常成熟,但是在运动场景中实时地捕捉目标却一直是一个比较艰难的课题。由于应用场景的复杂性,跟踪目标的多样性、以及对实时性和鲁棒性等的高要求,实时目标检测与跟踪数十年来一直是国内研究的热点。
本文的主要研究了一种基于TLD框架的实时手势检测与跟踪系统,对手势检测,手势跟踪,在线学习等各个环节的误差优化等都进行了理论研究与测试,最后,在BeagleBoard嵌入式开发板上实现了一个简单的手势人机交互系统原型。具体而言,本文的主要工作如下:
(1)结合TLD的跟踪框架,采用Lucas-Kanade金字塔算法计算光流,并针对该算法计算耗时的缺点,采用了一种改进的金字塔光流计算法,并结合前后两帧双向跟踪估计误差,降低了跟踪的错误率,使得光流法对像素点的跟踪更加可靠,有效地避免了跟踪中经常出现的漂移问题,并且在OpenCV下对图像匹配进行了测试。
(2)针对当前各种模版匹配算法不能处理目标在视野中消失或部分被遮盖的问题,提出了采用一种基于图像局部小块集合的手势表示模型,采用随机蕨分类器做模版匹配,并结合在线学习实时更新模型,有效解决了在目标消失后无法重新跟踪或者当目标被部分遮盖时难以给出正确结果的困难。
(3)设计了一个简单的手势人机交互系统原型,结合OMAP处理器的特点,将算法的处理过程平均分配给ARM核心和DSP核心,提高了处理速度,并最后测试了系统对手掌被遮盖、发生形变以及消失的应变能力。