基于深度学习的唇读识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户：zhangliye5

【摘要】

：

机器唇读,是一种非常新颖,只使用视觉信息即可理解讲话内容的技术。唇读识别是人工智能和计算机视觉领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言

【作者】

：

吴大江

【出处】

：

天津大学

【发表日期】

：

2004年期

【关键词】

：

唇读深度学习词语级句子级 TMLRD-20 汉语 CTC Encoder-Decoder

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器唇读,是一种非常新颖,只使用视觉信息即可理解讲话内容的技术。唇读识别是人工智能和计算机视觉领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能重建、刑事侦查、身份认证等领域。人工智能在现代社会的各个学科和领域中已经得到了广泛地应用,在各个领域都取得了很好的效果。以深度学习为核心的人工智能技术克服了一般机器学习方法中人工提取特征的困难,实现了机器自主提取特征的过程。唇读识别可以简单分为词语级和句子级两大类,词语级可以看做是判别式分类问题,而句子级可以看做是判别式序列到序列问题。目前,国内外已有学者开始研究自然场景下的唇读识别,并取得了一些成就,但研究的语言种类主要是英语。有关汉语的自然场景下的唇读识别研究目前鲜有触及。因此本文对唇读识别技术充分调研后,重点落在了自然场景下汉语唇读识别问题。本文的主要研究工作如下:1、对国内外的唇读识别技术进行了深入的对比研究,尤其是基于深度学习的唇读识别研究,初步确定了研究课题的整个工作流程。2、唇读识别领域取得进展的主要障碍之一是数据集的匮乏。目前英文唇读数据集也并不充分,可用的数据量远远不足以训练可扩展的模型。而汉语更是没有公开可用的数据集。基于这样的现状,本课题首先采用自动化的办法制作了汉语普通话唇读数据集TMLRD-20(Tianjin University Mandarin Lip Reading dataset20 hours),并详细给出了完整的制作流程。3、参考已有的在动作识别领域的研究成果,设计了几种词语级的唇读识别应用,并在LRW(Lip Reading Word)数据集上进行了测试,并给出了实验结果。这些设计也为后面句子级唇读识别应用设计特征提取前端提供参考。4、设计了基于改进的CTC(connectionist temporal classification)汉语句子级唇读识别模型,并在TMLRD-20上给出了实验结果和分析。识别结果表明该模型对于汉语句子级唇读识别应用具有可行性。5、设计了基于改进的Encoder-Decoder汉语句子级唇读识别模型MLRN(Mandarin Lip Reading Network),将该模型在TMLRD-20数据集和Grid数据集上给出了测试,实验结果表明该模型的性能要优于改进的基于CTC汉语句子级唇读识别模型的性能,并且在Grid数据集上也表现出非常有竞争性的识别结果。

其他文献

查拉图斯特拉之爱

“爱”是人类永恒的话题,每一个“个体此在,”都是“爱,”的思考者与践行者。而古往今来,一切伟大之人,必然对“爱”有着深刻的洞见,又必然要具有强大的“爱之能力”。作为“

学位

尼采查拉图斯特拉爱人类爱生命爱命运

最优密度聚类与双统计量有效性分析

聚类分析是机器学习中的重要研究方向之一,相对于监督学习和半监督学习,聚类能够根据数据集本身的结构特性将样本归类,并能够发掘数据集样本间隐含的信息,在数字化和信息化的

学位

数据挖掘聚类数据约减密度分辨率聚类有效性边界点

深对流激发的重力波在对流层、平流层和中间层的传播特性研究

大气重力波在全球或区域的气象学、气候学、化学以及中高层大气与低层大气动力学和模型参数化方案中起到非常关键的作用。为了分析飓风这类强对流激发的平流层和中间层重力波的传播特征,研究了重力波向上传播过程中背景风场的调控作用。首先重点综述了近年来利用多传感器卫星资料和数值模式研究大气重力波的相关研究进展,并简要概述了重力波的基本理论。总体上,卫星数据在中高层大气研究中发挥重要作用,与其他资料相结合分析不同

学位

平流层中间层重力波色散关系对流层逆温层

非理智自由

历代哲学家都关注过自由的问题,但他们往往是通过下定义的方式来研究,这样的认识方式虽然合乎理智,但柏格森认为这种认识方式是不真实的。理智的本能驱使它寻求确定不变的东

学位

意识状态强度绵延自由人的本真性

基于触觉反馈的穿戴式康复运动训练系统开发与研究

随着技术发展,基于触觉反馈的穿戴式康复运动训练系统成为中风、帕金森和膝关节炎患者进行康复运动训练的热门研究方案。然而现有系统存在使用场地受限和不便扩展的问题,限制

学位

康复运动训练惯性测量单元可穿戴系统触觉反馈

带传感器容错功能的电驱动机械变速器换挡控制

随着电动汽车的快速发展,无离合器无同步器电驱动机械变速器成为行业研究的热点之一。与传统的自动机械式变速器相比,无离合器无同步器电驱动机械变速器除具有传动效率高、成

学位

电动汽车电驱动机械变速器换挡执行机构传感器容错控制

二硅酸锂和氧化锆CAD/CAM全瓷冠磨损时间特性及抗断裂性能演变的研究

研究目的:通过模拟口腔环境下二硅酸锂和氧化锆CAD/CAM全瓷冠咀嚼磨损过程,探究其磨损行为、微观形貌和抗断裂性能动态演变过程及相互联系,为全瓷材料的临床应用和改进提供参

学位

二硅酸锂玻璃陶瓷氧化锆陶瓷全瓷冠磨损微观形貌抗断裂性能

洞口浅埋破碎段隧道围岩分级与施工优化研究

在我国西南山区进行隧道工程修建时常遇到浅埋破碎围岩等不良地质情况,给隧道施工带来了困难,尤其是在隧道洞口段,如何在浅埋破碎围岩条件下对隧道洞口段进行开挖与支护,保证

学位

围岩分级浅埋破碎段隧道施工监测数值模拟施工优化

硅纳米线复合体系气敏性能的实验与理论研究

本论文采用实验与理论相结合的方法研究了复合结构硅纳米线阵列气敏传感器对二氧化氮的吸附性能与敏感机理。理论方面,基于第一性原理密度泛函理论（DFT）计算方法,采用Materials

学位

硅纳米线气敏传感器范德瓦尔斯结第一性原理NO2气体

新课改背景下成都市锦江区小学体育社团活动开展研究

通过文献资料、实地考察、问卷调查和访谈法等研究方法,以成都市锦江区小学体育社团活动的开展为研究对象,对体育社团活动开展现状、开展中存在的主要问题等方面进行了分析。研究结论如下:(1)成都市锦江区小学体育社团主要采用体育组直接管理模式,管理结构较混乱,上级未出台相关社团管理的制度规范,主要采用体育组直接管理模式;各校体育社团均设有规章制度,但尚未完善,制度内容主要包括安全纪律和规模控制方面。体育社团

学位

基于深度学习的唇读识别研究

与本文相关的学术论文