基于单目摄像头的嵌入式手势识别算法研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:whansiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于单目摄像头的手势识别是人机交互领域的热门研究方向之一。然而,单目摄像头下的手部检测和识别仍然受到复杂背景、运动模糊、光线变化等问题的影响。虽然近几年基于深度学习的目标检测算法显著提高了手部检测的准确率,但仍然存在很高的计算开销,不适用于嵌入式平台。因此,本文基于轻量级的CNN模型,研究实现快速准确的手势识别算法,并将其应用于嵌入式平台。首先,本文结合SSD框架和改进的MobileNet模型实现了静态图片的手部检测和方向估计。为提高模型的检测精度,本文修改了MobileNet模型的网络结构,并通过自顶向下的特征融合结构引入上下文信息。为了精确估计手部方向,本文建立长轴和短轴向量的概念,并通过估计向量在水平和垂直方向的投影,实现手部方向对齐边框的检测。接着,本文针对视频序列提出快速的手部检测和手形识别算法。该检测模型根据上一帧检测结果确定当前帧的搜索区域,然后进行手部检测和手形识别,以此迭代地完成视频序列的检测。同时,本文针对模型训练给出了样本生成和数据扩增的方案。最后,本文将上述算法在嵌入式平台Jetson TK1上进行实现和优化,先后采用多种方案缩减模型的计算开销和内存读写,有效减少了模型在嵌入式平台的时间开销。本文在Oxford手势数据集上评估了静态图片的检测模型,其手部检测准确率为83.2%AP,在NVIDIA Titan X上的单帧处理时间为7.2ms,在速度上是现有最准确的方法的29.9倍,并在精度上提高8.1个百分点。视频序列的检测模型在EgoFinger数据集上进行了评估,手部检测的平均重叠率达到84.1%,在NVIDIA Titan X上实现2.5ms的单帧处理时间。经过在嵌入式平台Jetson TK1上的算法优化,静态图片和视频序列的检测模型分别达到61.659ms和23.183ms的单帧处理时间,基本满足实时的计算需要。
其他文献
教师“创造性”地使用教材文本,应能对不同文本的性质功能进行界定并实行差异化处理,视具体教学目标的设置定位实行个性化处理。语文教学视域下,教师创造性地使用教材文本须
美国当前发生的金融危机与20世纪30年代的经济危机是近一个世纪以来美国经济发展史上出现的两次大规模危机。两次危机所产生的历史背景、发生的情况以及产生的原因各不相同,
人物卓文君西汉才女,新寡.司马相如字长卿,辞赋大家.卓王孙临邛巨富,卓文君之父.王吉临邛县令,司马相如之友.杨德意内廷狗监,司马相如同乡.卞通卓府管家.侍儿卓文君侍女.
<正>现在最重要的机遇不是生产机遇,而是市场机遇。中国这么大的国家,农业不可能没有风险,增强应对风险能力也是最重要的加入WTO后,中国成为世界上农产品市场最开放、增长最
<正>2018年3月20日,全国两会最后一天,监察法的表决通过,在我国的反腐败斗争史上立起一个里程碑。监察法明确了国家监察机关的职责。许多纪检监察干部认为,从发挥职能作用角
城市群是专业化与多样化城市组成的网络化城市体系,是介于市场交易与一体化组织之间的中间性网络产业组织,城市群形成与发展的过程实质就是产业分工不断深化的过程。论文对集
春暖时节,国家级印刷园区建设骤然升温。今年3月,国家新闻出版广电总局密集批准建立4个国家级印刷园区——河北廊坊国家印装产业园区、天津国家级新闻出版装备产业园、华中国家
报纸
<正>绣球菌,又名绣球菇,形似巨大的绣球而得名。被誉为"万菇之王",是世界非常珍稀名贵的药食两用菌菇。野生数量极少,国内偶见于东北长白山、云贵川等地的高山的云杉、冷杉林
<正>创意的魅力在于化平凡为"惊艳"。在通州区台湖镇台湖村的一片创新农业产业园里,隐藏着一座与众不同的蔬菜大棚,它平常的外表下,别有洞天。"洞内屋舍俨然,绿植逸趣横生,原
唯物主义认为自然界是第一性的,精神是第二性的,它把存在放在第一位,把思维放在第二位。唯心主义却相反。唯物主义和唯心主义是哲学的两个相互联系的发展方向,不能把二者对立