基于3D卷积的唇语识别

来源 :大众科学(周刊) | 被引量 : 0次 | 上传用户:jwyzfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人的嘴形,提取此人连续的口型变化特征输入到唇语识别模型中,识别出说话人口型对应的发音,计算出可能性最大的自然语言语句。本文应用3D卷积神经网络对唇部图像进行建模,3D卷积网络相比2D卷机网络更适合学习时空特征,通过3D卷积,可以对时间信息建模,相比2D卷积能在空间上学习特征从而实现更好的性能。
  关键词:唇语识别;深度学习;3D卷积神经网络
  唇语识别就是通过分析嘴唇区域的唇形变化来判断对应的语言内容。能够在新一代的公共安全系统中,通过唇语识别对的无声视频数据进行分析解剖,识别出违法分子的口型,进而获取有价值的侦查信息。在人脸活体身份检测中,通过识别嘴唇发音指定验证信息验证人的身份,避免传统人脸识别中造假的可能。
  然而唇语识别对人类而言是一个具有难度的任务,特别是在缺乏上下文的情况下。大多数唇语的动作不仅包括嘴唇,而且还有舌头和牙齿的相对位置关系,所以在没有上下文的情况下是很难识别清楚,所以人类依靠经验唇读的结果表现差强人意,但是深度学习的出现,通过数据驱动唇语学习,用机器来代替人类做唇语识别成为主流趋势,通过构建基于深度学习的中文唇语识别网络模型,对大规模数据集训练,取得唇语的预测结果。
  近些年来,由于深度学习技术的发展,计算机语音技术的不断突破和计算机视觉技术不断的取得突破性的进步,计算机硬件技术的不断成熟,图像处理技术、语音处理和自然语言处理在实际场景中的效果都有了很大的提升,而唇语识别作为图像、语音和自然语言处理技术的合作体现,也有了很大的进步。基于深度学习的唇语识别在效果上已经超过了传统的方法。
  一、 研究现状
  在深度学习技术出现之前,唇语识别主要包含嘴唇区域的检测和定位、特征提取和识别三个步骤。唇部特征的提取是唇语识别的关键,将连续变换的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,而其中提出的特征质量直接影响着唇语识别的准确性在2009年[1]中,实验表明,机器唇读的性能优于人类唇读,因此自动唇读系统对于解决该问题必不可少。
  Petridis和Pantic在2016年[2]引入了一种基于直接从像素中提取深层瓶颈特征的方法,在该方法中,作者使用长短期记忆(LSTM)训练了模型,该方法达到了58.1%的准确性。
  随着深度学习的推进,深度神经网络会自动的学习提取图像特征,不用再手工设计特征。
  2016年,牛津大学VGG研究组Chung&Zisserman[3]公开了唇语识别领域LRW数据集。该数据集包含了500个类别,并使用VGG-M模型配合Multiple Tower的形式对图像进行建模。    2017年。Asse[4]等人结合了时空卷积[5](Spatio-Temporal Convolution Network)和双向门限循环单元(Bidrectionl GRU),在GRID上的WER上达到11.4。Stafylakis[6]等人配合STCNN和ResNet并结合Bi-GRU对时序进行建模,使用三阶段训练的训练方法在LRW上实现了更好的效果。
  二、 研究内容
  本文针对特定视频中的唇部运动信息进行唇语识别。我们主要通过CNN提取图像特征,但是CNN對时间序列的处理能力相对较弱,所以使用RNN整合时间序列的信息,但是RNN处理长距离语料时,会出现梯度弥散现象,针对这一现象将RNN进行相应的改进,其中较为经典的是长短期记忆神经网络LSTM,门控循环单元GRU。应用3D卷积神经网络代替2D卷积对唇部图像进行建模,3D卷积网络相比2D卷机网络更适合学习时空特征,通过3D卷积,可以对时间信息建模,相比2D卷积能在空间上学习特征从而实现更好的性能。
  主要研究内容包含了以下几点:
  1.本实验采用中科院计算所视觉信息处理与学习组发布的大规模中文词级数据集LRW-1000该数据集总计包含1000个中文词汇,总计大约718,018个样本,总计大约超过2000个不同的说话人。总计包含大约718,018个序列片段,每个序列片段对应于一个中文词汇。
  2.数据增强,对数据进行裁剪、翻转、旋转、图像变换等操作来产生更多的等价数据,为神经网络提供不同的样本,增加训练样本的多样性,提高模型的鲁棒性,避免过拟合。随机改变样本可以降低模型对某些熟悉的依赖,从而提高模型的泛化能力。
  3.由于唇语识别不仅要提取唇部区域的特征,还需要提取唇动特征,所以通过使用基于mobilenet结构的3DCNN做前端提取时序上特征,将3个唇部图像连续帧输入到3DCNN中以解码局部时空信息,之后加入LSTM以获得更丰富的语义特征。在LRW-10000数据集进行训练,输出预测值。利用损失函数来衡量模型的预测值与真实值之间的误差,并使用优化算法进行优化来调整模型参数,解决唇语识别分类的问题。本实验在Facebook开发开源的机器学习框架pytorch、硬件平台:显存12GB的Nvidia GTX 2080Ti GPU上进行实验,最后实现TOP1 ACC分类精度达到27%,本实验模型结构如图1所示。
  三、 总结
  唇语识别在日常生活中有广泛的应用价值,主要包括:1、复杂场景下音视频混合的输入,辅助语音识别在充满噪声的环境下辅助语音识别提高识别精确度。2、在摄像头环境下获取用户的对话信息。对于公共场景下的公共安全的建设提供有力的帮助。3、活体检测,通过唇语识别特定的语句进行活体检测判断生物活体信息。本文通过3DCNN解码局部时空信息然后再经过LSTM以获得更丰富的语义特征进行唇语识别提供比较具有代表性的唇语识别的方法。唇语识别未来还可以进行多模态认证的方法,加入语音信息作监督来提升唇语识别的精度,在人机交互方面还可以进行更多的尝试。
  参考文献:
  [1] S. Hilder, R. Harvey, B.-J. Theobald, Comparison of human and machine-based lip-reading, Auditory-Visual Speech Processing, Norwich, 2009. pp. 86–89. sept 10th-13th.
  [2] S. Petridis, M. Pantic, Deep complementary bottleneck features for visual speech, IEEE (2016) 2304–2308.
  [3] Chung J S, Zisserman A. Lip reading in the wild. Asian Conference on ComputerVision. Springer, Cham, 2016: 87-103
  [4] Assael Y M, Shillingford B, Whiteson S, et al. Lipnet: End-to-end sentence-levellipreading. arXiv preprint arXiv: 1611. 01599, 2016
  [5] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3dconvolutional networks. Proceedings of the IEEE international conference oncomputer vision, 2015: 4489-4497
  [6] Stafylakis T, Tzimiropoulos G. Combining residual networks with LSTMs forlipreading. arXiv preprint arXiv: 1703. 04105, 2017
其他文献
摘 要:进入新世纪以来,大型地震的爆发给国家和人民造成不可估量的损失。我国针对地震防护做了大量探索工作,如广泛进行地震预防讲座,开展地震演戏等,并将信息化手段积极应用于地震防护,取得了显著成果。但是由于地震的特殊性,信息技术难以实现准确测量和预测,这就对我国地震预防提出了新要求。因此要切实加大预防力度,做好震前演练,更重要的是不断提升信息化技术,努力攻克难题,早日实现地震的准确性预测。  关键词:
期刊
摘 要:河长制工作开展以来,菏泽市深入开展“深化河湖清违整治,构建无违河湖”专项行动。根据《菏泽市河湖清违清障工作推进实施方案》要求,对辖区内所有河道进行现场排查,逐一建立问题清单。为确保实现河道通畅,河水清澈,渠岸干净整洁,沿岸绿树繁盛奠定了基础。本文就坚持护养结合,实现水清岸绿工作进行分析,供参考。  关键词:河岸管理;养护结合;水清岸绿  近年来,山东省菏泽市逐步建立河长管河治水的长效体系,
期刊
摘 要:在我国,农业是一项极其重要的基础产业,随着近年来国家的飞速发展,其地位不断提高。不过在现代农业发展期间,无论是气候变化还是生态环境都产生极大影响,为农业发展带来巨大挑战。在新形势下为促进农业发展,应该以生态环境与现代气象服务为对象。所以本文分析了生态环境与基层智慧农业气象服务之间的关系,并且提高两者服务质量的对策。  关键词:生态环境;基层智慧农业;气象服务  前言:  长期以来,因为传统
期刊
摘 要:在当今信息化数据化的浪潮中,公民的个人信息安全受到了很大的挑战,我国《民法典》出台,其中强调了对个人信息的保护,而对于其侵权责任并无特殊规定。因个人信息侵权具有特殊性,拟借鉴域外国家的将侵权主体类型化,对其采取不同的归责原则的做法,结合我国信息技术发展的实际情况,提出将侵权主体类型化,以过错责任归责原则为基本原则,对于特殊的侵权主体可适用过错推定原则的构想。  关键词:个人信息侵权;归责原
期刊
摘 要:辅助函数是数学分析中命题证明的重要工具,其在微积分学中具有重要的地位. 本文针对辅助函数的概念,如何结合所需证明的命题条件构造辅助函数两大问题展开探讨;定义了辅助函数的概念,分析了构造辅助函数的一般性原则,对可作为辅助函数的函数类型进行归类,总结了一般常用的构造辅助函数的方法并对应分析了具体的例题,揭示了构造辅助函数所体现的数学思想方法以及对于解决一般数学问题的方法启示. 通过本文以期望对
期刊
摘 要:牛出血性败血症是一种常见的由细菌感染引起的急性传染病,具有发病迅速、传染性强、致死率高等特点,是畜牧业中牛养殖产业较为常见的疾病,多发于季节交替、气候变化强烈的时间段内。要想降低牛出血性败血症对牛养殖业的危害就必须清楚该疾病的防治措施,本文将对此进行展开论述旨在为该病的防治提供简单参考。  关键词:牛出血性败血症;防治;措施  1前言  随着我国畜牧业的发展在牛养殖过程中会经常遇见牛出血性
期刊
摘 要:成语具有短小精炼的语言形式,凝聚了各个民族精神的核心思想。本文通过对于俄语成语语言世界图景的研究,进一步感受俄罗斯文化精神独特的魅力。  关键词:俄语成语;世界图景;语言世界图景  语言世界图景是语言文化学主要核心概念之一,语言世界图景作为语言文化学语言与文化的主要研究对象,着重讨论民族的思维方式、个性、文化同民族语言之间的关系。语言世界图景是人们感知世界的方式和对待世界的态度,并依靠语言
期刊
摘 要:可满足性问题是著名的np难问题,骨干集是可满足性问题的重要结构。随着人工智能的快速发展,也给求解可满足性问题提供了更多的方法。本文通过分析决策树算法划分数据的关键原理,寻求决策树数据集与可满足性赋值之间的关系,探索新的求解命題公式骨干集的方法。  关键词:可满足性问题;决策树算法;骨干集;可满足赋值  约束满足性问题(Constraint Satisfaction Problem,CSP)
期刊
摘 要:近年来,随着新时期智能电网建设不断发展,电力资源管理呈现一体化、资源互享特点,电力部门不断加强与其他行业数据共享与交换,同时需形成一套从数据采集、编辑、成图、检查、入库、更新、共享与交换等一体化长期有效更新机制保证电力数据现势性。基于面向服务的软件架构利用地理信息系统、移动网络、数据库等技术研发电力资源地理信息平台,实现不同终端用户对电力资源数据(输电、配电等)管理与应用,保证电力资源数据
期刊
摘 要:目的 了解中老年人对社区养老卫生服务的需求以及利用现状,为政府及社区卫生服务中心发展老年人健康管理提供依据。方法 采用分层整群随机抽样,在浙江省抽取 2 个地级市—绍兴市、金华市,自行设计调查问卷对样本地区老年人进行调查。结果 被调查中老年人基本情况与社区卫生服务现状满意度之间的关系有统计学意义( P < 0. 05) 。中老年人对社区卫生服务完全满意率为 9.58%,社区养老是中老年人最
期刊