论文部分内容阅读
手势识别是人-机交互领域的关键技术之一,其简单、自然的特点深受研究人员的青睐,从交互角度而言,分为静态手势识别和动态手势识别。近些年来汽车逐渐成为人们的代步工具,行车过程中难免有操作车载多媒体的需求,如打开音乐播放器、增大播放器音量等,此时驾驶员视线将偏离正常的行车路线,从而大大增加了交通事故发生的风险。若能将手势识别技术应用于人车交互领域,将会有效地解决这个问题,因而意义非凡。传统手势识别算法和近些年的手势识别算法基本上是在背景固定、光照不变及采集数据时相对稳定的条件下进行,并不适用于实际车载场景。因此本文提出了车载场景下基于深度学习的手势识别研究方法,其中深度神经网络可以自动提取适合分类的手势特征,残差网络在训练网络模型时可以有效地避免梯度消失;并对所提车载场景下基于关键点的深度残差全连接网络进行了识别性能和鲁棒性的实验。具体研究内容如下:(1)对已有的手势识别研究方法进行了调研,介绍了两大类手势识别方法:基于可穿戴设备的接触式方法和基于计算机视觉的非接触式方法。接触式方法中介绍了利用数据手套进行手势识别;非接触式中介绍了传统的基于摄像头的识别方法和基于深度学习的手势识别研究方法。(2)采集了30位受试者的“上”、“下”、“左”、“右”、“张”与“合”的6类静态与动态手势,累计7,580个手势数据,初步建成了一个真实车载环境下的小型手势数据库。其中,不同场景下的静态手势数量为4,940;车载动态手势数量为2,640,包括不同车辆、不同光照强度(强光、正常、弱光)、及车辆状态(行驶、静止)下的车载手势数据。不同背景(4种不同车型)下的动态手势960个,不同光照强度(强光、正常、弱光)下的动态手势数量为600及不同车辆状态(行驶、静止)下的动态手势1,080。(3)开展了车载场景下基于关键点的残差全连接网络手势识别方法研究。首先,对预处理后的手势数据进行关键点提取,为了提高运算性能同时降低算法复杂度,对动态数据还进行了关键帧选取操作;接着,根据静态与动态数据的特点,分别设计了基于3层残差全连接网络的手势分类方法。在自建的数据库上对所提方法进行了性能测试,其中,静态手势平均识别准确率为99.96%;动态手势平均识别准确率为96.72%,相比较3D卷积神经网络、卷积神经网络、长短时记忆网络和双流网络,其识别率分别提升了10.72%、6.40%、5.17%和4.50%。实验结果验证了所提方法在车载环境下手势识别的有效性与鲁棒性。(4)开发了车载场景下基于关键点的残差全连接网络的手势识别系统。在上述研究的基础上,使用Python语言设计并开发了手势识别系统。该系统主要由数据集采集模块和手势识别模块两部分组成,其中,数据集模块主要用来采集车载场景下的静态手势数据和动态手势数据;手势识别模块主要用来识别所采集到的静态手势或动态手势。系统操作简单,具有良好的人-机交互性能,为下一步所要开展的优化算法及数据质量评估提供了基础平台。