基于Long Short-Term Memory的唇语识别研究

来源 :中国科学院大学(中国科学院重庆绿色智能技术研究院) | 被引量 : 0次 | 上传用户:tygsfe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是指利用计算机分析人说话的视频并根据说话人嘴唇运动的情况来自动识别其说话内容。唇语识别得以实现的基础在于唇动视觉信息是说话内容的重要载体,普通人在与人交流的过程中会通过观察说话人的唇部动作来辅助对语音的识别,当说话人处于嘈杂环境中时,唇动视觉信息更是成为了识别说话内容的重要的甚至是唯一的依据。正是由于唇动视觉信息的重要性,如果设计合理的视觉分析算法,计算机就能以较高的正确率实现唇语识别。受不同说话者不同的嘴唇外观、不同的说话习惯、不同的背景信息影响,即使说话者说了相同的内容,唇动视觉信息也会相差很大,这给唇语识别带来了很大的挑战。为了解决唇语视觉信息多样性的问题,本文提出了基于Long Short-Term Memory(LSTM)的新的唇语识别方法,试图从唇语视频中自动学习具有不变性的空间-时序特征,提高唇语识别的准确率。本文在公开的唇语数据集GRID、MIRACL-VC和OuluVS上对本文的方法做了针对分割的单词或短语的说话者独立的唇语识别评估。在GRID和MIRACL-VC上,本文的方法达到的准确率比传统方法至少高30%,在OuluVS上,本文的方法达到的准确率接近于最优结果。本文的主要贡献如下:1.不同于以往大多数的方法从嘴唇外表信息入手,本文研究了用嘴唇关键点坐标描述嘴唇形变信息作为唇语视频的视觉特征,它具有类内一致性和类间区分性的特点。2.本文提出了利用LSTM对唇语视觉特征进行处理,它能学习具有区分性和泛化性的空间-时序特征。实验结果表明,本文提出的基于LSTM的唇语识别方法有效地解决了唇语视觉信息多样性的问题。3.本文讨论了 LSTM适用于唇语识别任务的原因,依照本文的方法,可以利用LSTM完成其它类似唇语识别的序列任务。
其他文献
随着我国的经济建设迅速发展,钢结构已经在许多方面得到了大规模运用。但是,钢结构本身也存在很大的缺陷,特别是在腐蚀性问题上的缺陷是破坏钢结构耐久性最重要的原因。本文
本报汉城电:记者顾金俊报道:20世纪90年代以来,随着企业过度扩张,负债规模越来越大,韩国经济最终没能抵挡住亚洲金融风暴的冲击。金融危机过去已三年,韩国目前的产业水平如何,面临的
报纸
目的:观察气压治疗对老年患者髋关节置换术术后疼痛的镇痛效果、改善生活质量和睡眠质量情况。方法:采取便利抽样法,选取我院骨伤科病房2015年6月2016年12月筛选符合条件的择
环境作为一种"隐性课程",在开发幼儿智力、促进幼儿个性发展方面,发挥着潜移默化的影响。针对现在班级墙面环境布置中普遍存在的现象,以及班级墙面环境创设的策略进行浅要探
基于2004~2012年苏南5市的面板数据,利用专业化分工、工业化程度、服务效率、产业融合程度等指标,从整个地区和行业层面实证分析了苏南生产性服务业发展的影响因素。研究表明
俗话说,授之以鱼,不如授之以渔。一个教师不仅要教给学生知识,更重要的是交给学生学习知识的方法。线段图在小学数学应用题教学中起到了奇妙的作用,它可以帮助学生轻松、愉快的学
采用数理统计法对2010-2011赛季CBA常规赛中中外优秀运动员的得分、篮板球、助攻、抢断、盖帽5项技术数据进行统计分析。主要结论:外籍球员的竞技水平远高于国内球员;外援在
<正>五百多年前,罗大师写了《三国志演义》,五百年后,我读了《三国志演义》,实在不敢对罗大师的作品指手画脚,品头论足。但后人对曹操与刘备的态度截然相反,为此我要为曹操“
采用了文献资料、访谈和实地考察等方法,对万荣花鼓的传承和发展进行研究,主要对万荣花鼓在表演时间、演奏技艺、演奏形式、地域格局上的传承和发展的历程、途径、方向进行分
自从步入高三学习,学生就面临着高考的压力,体育运动成了他们宣泄情绪的重要方法。然而,因为学生的方法及自控能力较差,在课堂中易冲动,进而造成他们过度劳累,同学关系受到危