手语识别和翻译

来源 :电子产品世界 | 被引量 : 0次 | 上传用户:rserrrrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了使聋哑人与更多不懂手语的人自然地交流,本作品将手语翻译成文字和语音,利用Microsoft Kinect记录手语手势的三维坐标,通过机器学习和优化算法,在Intel Atom平台上实现了手语翻译。
  关键词:手语;识别;手势;英特尔;Kinect
  DOI: 10.3969/j.issn.1005-5517.2012.9.019
  简介
  手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达意义。虽然手语帮助它的使用者之间互相沟通,但聋哑人士与一般人的沟通却十分困难,这个沟通障碍是源于大部分人不懂得手语。
  另一方面,聋哑小朋友由于很难表达自己,以及中国的聋哑教师数量有限,导致他们的学习出现困难,得不到和普通小朋友同等的学习机会。
  为了解决这个问题,我们设计实现了一个从手语动作翻译成文字和声音的翻译器,令学习手语更有趣、更方便、更容易,以达到这个项目缩少聋哑人士与其他人的沟通障碍的目的。
  工作原理和算法
  特征提取
  深度图像的分辨率是640x480,意味着每秒钟的数据有17.6MB,存储如此大量的数据是不可能的。同时许多没有用处的数据(例如背景)都包含在原始数据中。因此我们必须从原始数据中提取出有用的信息。骨架是一种可以用来表示手语的有用信息。
  我们利用Kinect和OpenNI提取用户的骨架节点得到XYZ三点的坐标。我们一共提取了6个骨架节点,左手、左手肘、左肩、右手、右手肘、右肩。对于每一帧,我们从这些节点中计算出14个特征向量来表示这一帧的手语动作。经过标准化计算,我们用121帧来表示一个手语词语,因此每一个词语有1694个特征。
  原始数据标准化
  我们通过均匀分配和插值使原始数据标准化。通过二次插值法,利用最相近的三个原始数据计算出标准化的数据,使得每一个手语动作都统一用121帧来表示。
  支持向量机
  SVM(支持向量机)是统计学和计算机科学中的概念,简而言之,给定一组已经分好类别的数据,而且分类依据是未知的,支持向量机训练算法可以通过计算构建一个模型 ,一组新的数据到来时可以预测出新的数据属于哪一个类别。
  SVM的模型将所有数据映像到一个高维空间里,并计算出不同类别数据之间的最大化几何边缘区,然后把新的数据映射到同一个空间,根据之前计算出的最大化几何边缘区来预测新的数据属于哪一个类别。
  平台限制与解决方法
  平台限制
  使用Kinect的建议系统需求是CPU有双核2.66 GHz或以上,内存有2GB或以上,但Intel提供的平台只有分别1GHz CPU和1G 内存,明显与系统需求有差异。
  即使我们使用Linux操作系统,处理器使用率依旧满载,并且帧率只有大约2到4左右,远少于正常的30帧。在这种条件下,再加上处理器资源已被提取资源的线程占据,所以不可能在处理器里进行资料分析的工作。
  瓶颈
  为了找出瓶颈,我们首先关闭了图像用户接口。虽然处理器使用率降至85%,但帧率跟之前的一样。我们观察得到其中一个OpenNI控制的线程依然是占领了整个线程。只是由于所提供的平台是双线程的关系,使用率分别被定在50%及35%。
  其后我们关掉骨架提取的功能,使用率大幅降低到只有25%。经过进一步性能分析的工作,我们证实了瓶颈的来源就是骨骼提取。不幸地,骨骼提取的算法并不是开源的,而是被PrimeSence所保护。所以我们并不能通过修改原代码或是把算法放到 FPGA里以达致降低处理器使用率的效果。
  解决方法
  为了解决这个问题,我们尝试选择性地使用原始数据。原来数据传递方式是用户产生器(User Generator)直接从深度图像产生器(Depth Generator)得到原始数据。新的方法就是设立一个仿真深度图像产生器(Mock Depth Generator)。它会仿真成原来的产生器,而用户产生器则从它得到数据。
  当Kinect得到新的数据,它会将数据传给深度产生器,然后后者会发给仿真深度图像产生器。而每隔一个帧,仿真深度图像产生器会将得到的数据传给用户产生器。换言之,两帧从Kinect上得到的数据,只有一帧会真正被用作提取骨架,而另一帧将会被忽略。
  这个做法虽然令帧率降低到15,但处理器使用率却降至只有50%。而且经过我们的验证,几乎没有出现丢帧的情况,即使出现亦没有影响到提取骨架节点的质素。经过这个特殊处理,我们确定在这平台使用Kinect是可行的,甚至还可提取额外的处理器资源用以其他运算工作。
  
  图1 数据处理流程
  设计和实现
  概述
  系统通过Kinect获取深度影像,并使用应用程序OpenNI从深度影像中提取用户的骨架。在获取的骨架中,我们选取左右手、肘、肩六个关节点。总的来看,用户完成了一个手语,通过Kinect和OpenNI,系统将记录一系列的帧,每一帧由左右手、肘、肩六个关节点的三维空间向量组成。用户每一次完成同一个手语都会有差别,所以我们在特征提取之前需要对记录的帧进行常态化处理。我们使用支持向量机(SVM)对提取的特征向量进行分类。每一类表示一个手语。图2描述了整个手语识别的流程。
  手语获取
  双手交叉握于腹部前方。这一动作我们称之为“预备动作”,表示手语的开始和结束。为了避免潜在的识别错误,我们要求每相邻的两帧(0.13s),用户至少移动5厘米。如果用户做预备动作超过100帧(6.67s),系统将会停止获取手语数据。
  数据处理
  正如我们之前提到的常态化处理,我们将获取的一系列帧通过均分和插入的方法统一成121帧,即2178个三维空间向量。我们对常态化处理后的数据进行特征提取,产生1694个特征向量。最后我们将所有的特征向量放在一个矩阵里,用于SVM分类。
  手语训练和分类
  LIBSVM是一个用于支持向量机的集成软件,支持多类分类。用户使用LIBSVM提供的库,可以更容易地使用SVM。我们使用“svm-train”读取输入文件(Input File),生成模型文件(Model file)。我们的输入文件包含1694个特征向量。我们对每个手语单词训练20到30次。到目前为止,我们总共训练了48个手语。我们可以通过训练更多的手语扩展我们的数据库。
  使用“svm-predict”可以预测用户所做的手语属于哪一类。
  
  图2 识别流程
其他文献
中国光伏行业最近遇到了不少麻烦,外部困扰加内需不足,有面临洗牌的危机,但是基于全球对于环保和可持续话题的关注,行业的未来毋庸置疑。岛津制作所近期在中国市场推出其为太阳能电池板生产提供支持的防反射膜成膜装置“MCXS”和电池板检查装置“SCI”系列的新产品。  这两个系列的新产品都是针对晶体硅太阳能电池片的生产工艺的,岛津企业管理(中国)有限公司产业机械事业部技术服务部技术经理玉基赫表示,太阳能电池
期刊
2012年第八届中国国际国防电子展期间,由《电子产品世界》杂志社主办的第五届国际测试仪器及应用技术大会(ITMAF 2012)于5月10日在中国展览馆报告厅召开,本届大会的主题是面向连接时代的高性能测试技术应用。来自测试行业的专家和厂商共聚一堂,共同探讨测试行业的当今形势和未来发展之路。  测试是所有电子产品开发过程中不可缺少的重要环节,而且其技术要先于其他电子技术的发展,在现在无处不连接的时代,
期刊
近日,英飞凌科技公司的电驱动系统产品市场总监Dusan Graovac博士介绍了英飞凌对汽车,尤其是电动汽车的动向。  预计电动车在2020年以后大规模地进入家用市场。现在人们担心使用电动车所保证的车程是否足够长;另外如何使用电动车,是在大城市内通勤,还是城际间的长途等;以及充电方式、设备、网络的建设等。  电池是电动汽车部件中最贵的部分。在电池系统方面,英飞凌从两方面开展工作:第一,提高功率器件
期刊
Mindspeed完成了对家庭基站芯片市场的领先者Picochip收购,实现了有价值的技术和客户的协同结合,用Mindspeed公司全球销售高级副总裁Gerald H a m i l t o n的话说,“Mindspeed和Picochip的合并将造就下一代移动宽带通信小蜂窝无线技术的领头羊”。  Gerald介绍,随着未来移动通讯的飞速发展,在传输的数据量越来越大、对速度的要求越来越高和对无处不
期刊
作为一家有70年经验的连接器专业厂商,欧度连接器系统(ODU,简称欧度)以“灵活性,贴近客户”的理念,在全球市场竞争中确立了自己的位置,并且赢得了众多客户的支持。  欧度市场总监Gunter Rohr介绍,ODU拥有全部关键的设计、生产和测试流程,如3D-CAD、制模、成型、电镀、 精密冲压以及车、磨、全自动装配等,因此ODU尤其擅长为用户特别设计或定制连接器,并愿意与客户一起研究设计连接器产品。
期刊
如今大约有90亿台设备接入互联网,今后几年这一数字将激增至500亿,其中的一个重头戏是 “物联网”(IoT),而汽车联网是一个重要组成部分。NXP半导体汽车电子事业部销售与市场高级副总裁Drue Freeman说,预计2020年车联网将占互连设备的10%,包括软件定义数字收音机、智能汽车门禁、智能钥匙、车用NFC等。  为此,NXP与合作伙伴展开了一系列的战略合作。例如今年4月,恩智浦与Cohda
期刊
考虑1:选择PXI还是PXIe  随着商业PC的总线技术从PCI演进到了PCI Express,显著地拓展了总线的可用带宽,PXI也将PCI Express集成到PXI标准中,以满足更多领域的应用需求。但是,许多现有的PXI应用并不会得益于PXI Express的性能提升,考虑到成本等因素,选择PXI平台时,第一步便是考虑是选择PXI系统还是PXI Express系统。  通过利用PCI Expr
期刊
乔布斯(1955~2011年)离开我们已近两年,但最近因《遗失的访谈》――意外发现的1995年美国纪录片制作人Bob Cringley对乔布斯一个多小时的深入访谈去年重新制作发行,很快引起世界果粉的关注,陆续翻译成各种语言在网上流传。中文版是由36位网友合作翻译,花了5个月的时间于今年5月初上传至优酷网,一天之内的播放量即达到34万多次,媒体广泛报道,让我们对乔布斯有了进一步的了解。在乔布斯身后的
期刊
引言  随着电力电子技术的进步,对电能质量的要求越来越高,Vienna电路在三相PFC中有着明显的优势,由于采取三电平技术,大大降低了开关管的耐压要求,采用MOSFT可以有利于提高开关频率,有效地提高功率密度,有着很大的发展潜力,而空间矢量调制又有着利于数字实现,控制策略灵活的优势,有着良好的研究和发  展前景[1]。  主电路原理  图1是Vienna的主电路拓扑,图中的Sa、Sb、Sc是双向开
期刊
F P G A在经过了从上世纪90年代到2000年的快速发展、随后短期的泡沫破裂、以及近几年的平稳增长的发展阶段,未来将会迈入硅片融合时代。  据Altera公司资深副总裁兼首席技术官Misha Burich介绍,通用处理器同样的芯片可以通过软件编写程序来实现不同的应用,使用非常灵活但同时功效较低;ASSP和ASIC等专用芯片通过固化硬件针对专门应用,不可编程,功效高但灵活性差;硅片融合时代的FP
期刊