非特定人手语数据的流形结构分析与识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangnly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语识别研究的目的是增进聋人与听力健康人之间无障碍的交流,提高计算机对人体语言的理解能力。非特定人手语识别是推动手语识别系统实用化所必须解决的问题。目前,非特定人手语识别与特定人手语识别性能相比还有较大的差距,其主要原因在于数据本身的差异性矛盾与训练样本的匮乏。数据差异性矛盾使得非特定人手语识别中提取手语数据有效的共同特征非常困难。在实际应用中,模型的表达能力与样本的缺乏之间的矛盾已经成为制约识别系统效果的瓶颈。为解决上述两方面的问题,本文将流形思想结合到传统的HMM手语模型中,主要的研究工作如下:1.通过Isomap算法直观展现手语数据的流形结构。同类数据集在几何上具有某种由内在不变性形成的嵌套流形结构,这种结构本身对应了单一的流形概念。Isomap方法是最常用的流形可视化算法,其对手语数据的处理结果证明了手语数据本身包含着流形结构,可将HMM模型中的状态类与流形概念对应起来,挖掘其内在的不变性。2.根据Isomap可视化结果,提出一种TV/HMM手语模型。利用流形概念具有一定学习和推理能力的优点,引入切向量来线性表达数据的可变性,对类内允许的变化程度进行有效建模,从而使分类器对某些不造成类别变化的数据变化不敏感,并且在训练集较小的情况下,通过对几何结构的描述,获得对数据个体差异的形式化描述。TV/HMM模型既加入了对特异性因素的处理,又弥补了训练数据不足造成的缺陷。3.实现了基于TV/HMM的手语词识别系统。系统利用最大似然估计从训练数据中学习切向量,确定最佳参数和迭代次数后,通过实验证明了TV/HMM模型相对于传统HMM模型的优越性。在训练集较小、不显著增加时间复杂度的情况下,TV/HMM模型对系统性能有很大的改善,可将非特定人的识别率由70.38%提高到72.44%,改善度达到6.96%;加入mean-shift类内向内生成的虚拟数据后,非特定人的识别率由70.56%提高到72.94%,改善度达到8.07%。
其他文献
随着汽车电子的迅速发展,车内的电子控制系统由传统的集中式控制逐渐被分布式控制所取代。CAN(Control Area Network)以其高可靠性、无破坏仲裁、多主等优越特性,成为了车内
虚拟人(virtual human或computer synthesized characters)是人在计算机生成的空间(虚拟环境)中的几何特性与行为特性的表示。要实现人在三维虚拟环境中的准确再现,不仅要模拟
三维人脸重建是计算机视觉的核心研究内容之一,它涉及的内容包括三维人脸识别、三维人脸动画、3D游戏仿真、虚拟现实等方面的应用。随着一大批人脸重建算法的涌现,近年来,三维人
随着互联网的广泛应用,互联网上出现了大量的垃圾信息以及各种网络攻击。要想营造一个健康和安全的网络环境,一个重要的手段就是对互联网信息进行分析过滤。过滤垃圾信息和入侵
Linux具有功能强大、开放源码、支持多种硬件平台、模块化设计等优点,在嵌入式领域得到了广泛的应用。但同时Linux是一个分时操作系统,其不可抢占的内核、粗糙的时钟粒度、频繁
可分级视频编码(SVC)作为H.264/AVC的可分级扩展,是正在制订中的视频编码标准。它通过时域层、空域层和质量(SNR)层的混合可分级的机制,在比特流级上实现可分级性,同时具有很
网格使人们可以无缝的集成广域资源来合作解决问题。在网格环境里如何有效的管理资源和调度计算就成为影响网格计算是否成功的最重要因素之一。而资源发现和资源选择又是网格
Linux系统是一款优秀的开放源码的操作系统,正是因为其开放性和可移植性使它在当前的嵌入式产品开发中有着非常重要地位。通用串行总线(USB)作为一种新型总线,日益广泛地应用
Web服务(Web Services)已经成为分布式网络计算的发展趋势。然而现有的Web服务技术只关注对服务输入输出数据类型以及访问细节的说明。由于缺乏语义描述,无法支持服务的自动
工厂各车间选址、医院布局、电脑键盘分布设计、任务分配调度等都可归结为二次分配问题。在理论上,二次分配问题属于组合优化问题,存在“组合爆炸”现象。归因于NP-hard属性,很