基于时空卷积神经网络和双向门循环单元的唇语识别

来源 :武汉大学 | 被引量 : 1次 | 上传用户：star33333

【摘要】

：

唇语识别技术是指仅根据说话人唇部运动的视觉信息,从而识别出其所说的文本内容,目前在唇语交互控制、静音信息输入、噪声环境下的说话识别和静音视频的处理识别有着重要应用

【作者】

：

申一帆

【出处】

：

武汉大学

【发表日期】

：

2019年01期

【关键词】

：

深度学习唇语识别中文唇读时空卷积神经网络双边门循环单元

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

唇语识别技术是指仅根据说话人唇部运动的视觉信息,从而识别出其所说的文本内容,目前在唇语交互控制、静音信息输入、噪声环境下的说话识别和静音视频的处理识别有着重要应用价值,对辅助身份验证、公共安全领域和帮助聋哑人沟通方面也有着很重要的研究意义。然而,唇语识别任务对人类而言难度极大,传统的机器学习方法和模型存在特征提取费时、识别效果欠佳等问题。传统方法需要花费大量人工来标记唇语视频数据,识别率取决于特征提取的好坏。而且中文唇语数据集不多,数据体量较小,基于这种小规模数据集的研究结果难以拓展到大数据集上,应用价值有限。针对以上问题,本文的主要思想是,先自建大量中文唇语数据集,再用多层STCNN和多层Bi-GRU的网络结构来提取唇语特征,进行端到端训练,从而实现句子级别的中文唇语识别。本文的主要研究内容及贡献如下:(1)实现了一个基于ios系统的客户端Lipreading Video来自建中文唇语数据集,该客户端支持不同用户录制唇语视频数据,用户可以根据客户端显示的文字录制唇语视频,并选择回看、重新录制或上传视频到服务器。系统采用VAD算法对采集到的中文唇语视频数据进行检测和分割,自动配上标记出说话人说每个词语的起始和结束时间戳;并利用基于Haar-like特征的AdaBoost级联分类器进行人脸检测,进而定位到人脸并提取我们所需的唇部区域。该方案能够批量标记唇语视频数据,节省了大量的人工量。(2)提出了一个端到端的中文唇语识别网络模型——ChineseLipNet,对于输入的唇语视频数据,先用多层STCNN提取特征,并用最大池化(Max-Pooling)进行特征降维,不用手工标记模型特征点,就能提取到非常好的特征。多层STCNN处理后输出到多层Bi-GRU对提取的特征进行训练,双向GRU结构能够同时学习上下文信息,输出该句对应的文本,最后采用一个全连接层和softmax进行预测输出。本文对所提出的网络模型进行了相关实验和对比分析。在唇语识别结果方面,将唇语识别模型ChineseLipNet与人类唇语识别和对比网络AlexNet模型、VGG模型进行对比分析。实验结果表明,本文提出的ChineseLipNet模型的识别准确率大幅度超过人类唇语识别的准确率,并且优于AlexNet模型和VGG模型。同时,ChineseLipNet模型网络参数规模更小,训练时间更短。因此,ChineseLipNet模型不仅适合训练大规模唇语数据集,而且更适合迁移到便携式终端设备进行识别,有较高的应用价值。

其他文献

电化学氧化法去除酒中抗营养素的研究

白酒在中国有着漫长的酿造历史,拥有特殊的酿造工艺和丰富细腻的口感。随着我国近年来对食品安全问题的重视,白酒的质量安全问题引起广大国人重视。白酒中含有部分致癌或增加

学位

白酒抗营养素人工熟陈电解

异质复杂网络系统可控性研究

近年来,复杂网络系统的可控性是网络科学研究中的热点。现有研究大多关注同质节点网络系统,即网络中的节点具有相同的动力学。考虑到实际网络系统节点的异质性,本文研究了异

学位

可控性复杂网络异质性多输入多输出系统有向图

县域义务教育财政充足问题研究

我国义务教育财政拨款不足一直是社会关注的热点问题,党的十九大明确提出“推动城乡义务教育一体化发展”,十三届全国人大一次会议中,提出“努力让每个孩子都能享受公平而有

学位

县域义务教育学校教育结果财政拨款充足

含Ti微合金钢的镁处理工艺与高温热塑性

含Ti微合金钢角部横裂纹是其连铸生产过程中最为常见的质量缺陷。δ相转变为γ相的过程中由于结构差异伴随着大的体积收缩,导致初生坯壳厚度不均,应力集中时易产生表面裂纹,

学位

微合金钢表面裂纹镁处理TiN异质形核

政府部门的食品安全监管职能分析

随着国民经济的发展,人们对生活品质、食品安全性的要求越来越高,对日常饮食的健康性越来越关注。近年来,有关食品安全的新闻频频见诸报端,“食品安全”成为了上至国家政治、

学位

食品安全监管工商行政管理

傅斯年与中国近现代科学考古学的建构

史语所考古组组织发掘的殷墟所呈现出来的学术效应反映了科学考古学作为现代学术具备了拨开中国上古史迷雾的能力。而这一切就在于傅斯年对中国上古史的思考,对中国传统治学路径的思考。换句话说,傅斯年史学思想在不断生长的过程中,认识到科学考古学是可以让中国传统学术焕发新的生命力。由此,笔者认为有必要就中国科学考古学的建构与傅斯年史学思想中的科学考古学因素展开进一步地探讨。质言之,就是借傅斯年史学观念的学思历程

学位

傅斯年史语所考古组疑古派

我国教育代际流动的作用机制研究

随着我国经济的快速发展,居民的生活水平也进一步提高,但社会阶层固化、收入差距扩大等问题逐渐凸显,这引起了人们对代际间社会流动的关注。目前在收入代际流动的研究中,教育

学位

教育代际流动中介效应分析家庭资本

牡蛎中诺如病毒高效检测的前处理方法建立及应用

诺如病毒(Norovirus,No V)已成为全球非细菌性肠胃炎的首要病原,摄入被污染的食物或水等是造成病毒感染的常见方式。牡蛎等贝类被报道已成为No V传播的最重要载体之一。近年

学位

诺如病毒牡蛎检测技术前处理技术免疫磁富集污染监测

空化射流有效冲击耦合磨介碰撞对微细颗粒破碎作用研究

为有效解决微细颗粒机械法规模粉体制备中团聚和粉磨极限等问题,采用空化射流冲击耦合磨介碰撞的微细颗粒制备方法。为探究空化冲击作用下的颗粒-磨介液相粉碎机理,以及有效

学位

空化射流近球壁空化泡溃灭微细颗粒破碎粒度分布

利用废啤酒蒸馏回收酒精进行酿造威士忌风格蒸馏酒的研究

在啤酒的生产过程中不可避免会产生废啤酒,在当今提倡绿色生产,节约能源的背景下,将废啤酒进行利用,既可以减轻环境的污染,又可以增加啤酒行业的经济效益。本文以废啤酒为原

学位

废啤酒蒸馏工艺橡木桶橡木片陈贮风味物质

基于时空卷积神经网络和双向门循环单元的唇语识别

与本文相关的学术论文