论文部分内容阅读
摘 要:唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人的嘴形,提取此人连续的口型变化特征输入到唇语识别模型中,识别出说话人口型对应的发音,计算出可能性最大的自然语言语句。本文应用3D卷积神经网络对唇部图像进行建模,3D卷积网络相比2D卷机网络更适合学习时空特征,通过3D卷积,可以对时间信息建模,相比2D卷积能在空间上学习特征从而实现更好的性能。
关键词:唇语识别;深度学习;3D卷积神经网络
唇语识别就是通过分析嘴唇区域的唇形变化来判断对应的语言内容。能够在新一代的公共安全系统中,通过唇语识别对的无声视频数据进行分析解剖,识别出违法分子的口型,进而获取有价值的侦查信息。在人脸活体身份检测中,通过识别嘴唇发音指定验证信息验证人的身份,避免传统人脸识别中造假的可能。
然而唇语识别对人类而言是一个具有难度的任务,特别是在缺乏上下文的情况下。大多数唇语的动作不仅包括嘴唇,而且还有舌头和牙齿的相对位置关系,所以在没有上下文的情况下是很难识别清楚,所以人类依靠经验唇读的结果表现差强人意,但是深度学习的出现,通过数据驱动唇语学习,用机器来代替人类做唇语识别成为主流趋势,通过构建基于深度学习的中文唇语识别网络模型,对大规模数据集训练,取得唇语的预测结果。
近些年来,由于深度学习技术的发展,计算机语音技术的不断突破和计算机视觉技术不断的取得突破性的进步,计算机硬件技术的不断成熟,图像处理技术、语音处理和自然语言处理在实际场景中的效果都有了很大的提升,而唇语识别作为图像、语音和自然语言处理技术的合作体现,也有了很大的进步。基于深度学习的唇语识别在效果上已经超过了传统的方法。
一、 研究现状
在深度学习技术出现之前,唇语识别主要包含嘴唇区域的检测和定位、特征提取和识别三个步骤。唇部特征的提取是唇语识别的关键,将连续变换的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,而其中提出的特征质量直接影响着唇语识别的准确性在2009年[1]中,实验表明,机器唇读的性能优于人类唇读,因此自动唇读系统对于解决该问题必不可少。
Petridis和Pantic在2016年[2]引入了一种基于直接从像素中提取深层瓶颈特征的方法,在该方法中,作者使用长短期记忆(LSTM)训练了模型,该方法达到了58.1%的准确性。
随着深度学习的推进,深度神经网络会自动的学习提取图像特征,不用再手工设计特征。
2016年,牛津大学VGG研究组Chung&Zisserman[3]公开了唇语识别领域LRW数据集。该数据集包含了500个类别,并使用VGG-M模型配合Multiple Tower的形式对图像进行建模。 2017年。Asse[4]等人结合了时空卷积[5](Spatio-Temporal Convolution Network)和双向门限循环单元(Bidrectionl GRU),在GRID上的WER上达到11.4。Stafylakis[6]等人配合STCNN和ResNet并结合Bi-GRU对时序进行建模,使用三阶段训练的训练方法在LRW上实现了更好的效果。
二、 研究内容
本文针对特定视频中的唇部运动信息进行唇语识别。我们主要通过CNN提取图像特征,但是CNN對时间序列的处理能力相对较弱,所以使用RNN整合时间序列的信息,但是RNN处理长距离语料时,会出现梯度弥散现象,针对这一现象将RNN进行相应的改进,其中较为经典的是长短期记忆神经网络LSTM,门控循环单元GRU。应用3D卷积神经网络代替2D卷积对唇部图像进行建模,3D卷积网络相比2D卷机网络更适合学习时空特征,通过3D卷积,可以对时间信息建模,相比2D卷积能在空间上学习特征从而实现更好的性能。
主要研究内容包含了以下几点:
1.本实验采用中科院计算所视觉信息处理与学习组发布的大规模中文词级数据集LRW-1000该数据集总计包含1000个中文词汇,总计大约718,018个样本,总计大约超过2000个不同的说话人。总计包含大约718,018个序列片段,每个序列片段对应于一个中文词汇。
2.数据增强,对数据进行裁剪、翻转、旋转、图像变换等操作来产生更多的等价数据,为神经网络提供不同的样本,增加训练样本的多样性,提高模型的鲁棒性,避免过拟合。随机改变样本可以降低模型对某些熟悉的依赖,从而提高模型的泛化能力。
3.由于唇语识别不仅要提取唇部区域的特征,还需要提取唇动特征,所以通过使用基于mobilenet结构的3DCNN做前端提取时序上特征,将3个唇部图像连续帧输入到3DCNN中以解码局部时空信息,之后加入LSTM以获得更丰富的语义特征。在LRW-10000数据集进行训练,输出预测值。利用损失函数来衡量模型的预测值与真实值之间的误差,并使用优化算法进行优化来调整模型参数,解决唇语识别分类的问题。本实验在Facebook开发开源的机器学习框架pytorch、硬件平台:显存12GB的Nvidia GTX 2080Ti GPU上进行实验,最后实现TOP1 ACC分类精度达到27%,本实验模型结构如图1所示。
三、 总结
唇语识别在日常生活中有广泛的应用价值,主要包括:1、复杂场景下音视频混合的输入,辅助语音识别在充满噪声的环境下辅助语音识别提高识别精确度。2、在摄像头环境下获取用户的对话信息。对于公共场景下的公共安全的建设提供有力的帮助。3、活体检测,通过唇语识别特定的语句进行活体检测判断生物活体信息。本文通过3DCNN解码局部时空信息然后再经过LSTM以获得更丰富的语义特征进行唇语识别提供比较具有代表性的唇语识别的方法。唇语识别未来还可以进行多模态认证的方法,加入语音信息作监督来提升唇语识别的精度,在人机交互方面还可以进行更多的尝试。
参考文献:
[1] S. Hilder, R. Harvey, B.-J. Theobald, Comparison of human and machine-based lip-reading, Auditory-Visual Speech Processing, Norwich, 2009. pp. 86–89. sept 10th-13th.
[2] S. Petridis, M. Pantic, Deep complementary bottleneck features for visual speech, IEEE (2016) 2304–2308.
[3] Chung J S, Zisserman A. Lip reading in the wild. Asian Conference on ComputerVision. Springer, Cham, 2016: 87-103
[4] Assael Y M, Shillingford B, Whiteson S, et al. Lipnet: End-to-end sentence-levellipreading. arXiv preprint arXiv: 1611. 01599, 2016
[5] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3dconvolutional networks. Proceedings of the IEEE international conference oncomputer vision, 2015: 4489-4497
[6] Stafylakis T, Tzimiropoulos G. Combining residual networks with LSTMs forlipreading. arXiv preprint arXiv: 1703. 04105, 2017
关键词:唇语识别;深度学习;3D卷积神经网络
唇语识别就是通过分析嘴唇区域的唇形变化来判断对应的语言内容。能够在新一代的公共安全系统中,通过唇语识别对的无声视频数据进行分析解剖,识别出违法分子的口型,进而获取有价值的侦查信息。在人脸活体身份检测中,通过识别嘴唇发音指定验证信息验证人的身份,避免传统人脸识别中造假的可能。
然而唇语识别对人类而言是一个具有难度的任务,特别是在缺乏上下文的情况下。大多数唇语的动作不仅包括嘴唇,而且还有舌头和牙齿的相对位置关系,所以在没有上下文的情况下是很难识别清楚,所以人类依靠经验唇读的结果表现差强人意,但是深度学习的出现,通过数据驱动唇语学习,用机器来代替人类做唇语识别成为主流趋势,通过构建基于深度学习的中文唇语识别网络模型,对大规模数据集训练,取得唇语的预测结果。
近些年来,由于深度学习技术的发展,计算机语音技术的不断突破和计算机视觉技术不断的取得突破性的进步,计算机硬件技术的不断成熟,图像处理技术、语音处理和自然语言处理在实际场景中的效果都有了很大的提升,而唇语识别作为图像、语音和自然语言处理技术的合作体现,也有了很大的进步。基于深度学习的唇语识别在效果上已经超过了传统的方法。
一、 研究现状
在深度学习技术出现之前,唇语识别主要包含嘴唇区域的检测和定位、特征提取和识别三个步骤。唇部特征的提取是唇语识别的关键,将连续变换的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,而其中提出的特征质量直接影响着唇语识别的准确性在2009年[1]中,实验表明,机器唇读的性能优于人类唇读,因此自动唇读系统对于解决该问题必不可少。
Petridis和Pantic在2016年[2]引入了一种基于直接从像素中提取深层瓶颈特征的方法,在该方法中,作者使用长短期记忆(LSTM)训练了模型,该方法达到了58.1%的准确性。
随着深度学习的推进,深度神经网络会自动的学习提取图像特征,不用再手工设计特征。
2016年,牛津大学VGG研究组Chung&Zisserman[3]公开了唇语识别领域LRW数据集。该数据集包含了500个类别,并使用VGG-M模型配合Multiple Tower的形式对图像进行建模。 2017年。Asse[4]等人结合了时空卷积[5](Spatio-Temporal Convolution Network)和双向门限循环单元(Bidrectionl GRU),在GRID上的WER上达到11.4。Stafylakis[6]等人配合STCNN和ResNet并结合Bi-GRU对时序进行建模,使用三阶段训练的训练方法在LRW上实现了更好的效果。
二、 研究内容
本文针对特定视频中的唇部运动信息进行唇语识别。我们主要通过CNN提取图像特征,但是CNN對时间序列的处理能力相对较弱,所以使用RNN整合时间序列的信息,但是RNN处理长距离语料时,会出现梯度弥散现象,针对这一现象将RNN进行相应的改进,其中较为经典的是长短期记忆神经网络LSTM,门控循环单元GRU。应用3D卷积神经网络代替2D卷积对唇部图像进行建模,3D卷积网络相比2D卷机网络更适合学习时空特征,通过3D卷积,可以对时间信息建模,相比2D卷积能在空间上学习特征从而实现更好的性能。
主要研究内容包含了以下几点:
1.本实验采用中科院计算所视觉信息处理与学习组发布的大规模中文词级数据集LRW-1000该数据集总计包含1000个中文词汇,总计大约718,018个样本,总计大约超过2000个不同的说话人。总计包含大约718,018个序列片段,每个序列片段对应于一个中文词汇。
2.数据增强,对数据进行裁剪、翻转、旋转、图像变换等操作来产生更多的等价数据,为神经网络提供不同的样本,增加训练样本的多样性,提高模型的鲁棒性,避免过拟合。随机改变样本可以降低模型对某些熟悉的依赖,从而提高模型的泛化能力。
3.由于唇语识别不仅要提取唇部区域的特征,还需要提取唇动特征,所以通过使用基于mobilenet结构的3DCNN做前端提取时序上特征,将3个唇部图像连续帧输入到3DCNN中以解码局部时空信息,之后加入LSTM以获得更丰富的语义特征。在LRW-10000数据集进行训练,输出预测值。利用损失函数来衡量模型的预测值与真实值之间的误差,并使用优化算法进行优化来调整模型参数,解决唇语识别分类的问题。本实验在Facebook开发开源的机器学习框架pytorch、硬件平台:显存12GB的Nvidia GTX 2080Ti GPU上进行实验,最后实现TOP1 ACC分类精度达到27%,本实验模型结构如图1所示。
三、 总结
唇语识别在日常生活中有广泛的应用价值,主要包括:1、复杂场景下音视频混合的输入,辅助语音识别在充满噪声的环境下辅助语音识别提高识别精确度。2、在摄像头环境下获取用户的对话信息。对于公共场景下的公共安全的建设提供有力的帮助。3、活体检测,通过唇语识别特定的语句进行活体检测判断生物活体信息。本文通过3DCNN解码局部时空信息然后再经过LSTM以获得更丰富的语义特征进行唇语识别提供比较具有代表性的唇语识别的方法。唇语识别未来还可以进行多模态认证的方法,加入语音信息作监督来提升唇语识别的精度,在人机交互方面还可以进行更多的尝试。
参考文献:
[1] S. Hilder, R. Harvey, B.-J. Theobald, Comparison of human and machine-based lip-reading, Auditory-Visual Speech Processing, Norwich, 2009. pp. 86–89. sept 10th-13th.
[2] S. Petridis, M. Pantic, Deep complementary bottleneck features for visual speech, IEEE (2016) 2304–2308.
[3] Chung J S, Zisserman A. Lip reading in the wild. Asian Conference on ComputerVision. Springer, Cham, 2016: 87-103
[4] Assael Y M, Shillingford B, Whiteson S, et al. Lipnet: End-to-end sentence-levellipreading. arXiv preprint arXiv: 1611. 01599, 2016
[5] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3dconvolutional networks. Proceedings of the IEEE international conference oncomputer vision, 2015: 4489-4497
[6] Stafylakis T, Tzimiropoulos G. Combining residual networks with LSTMs forlipreading. arXiv preprint arXiv: 1703. 04105, 2017