基于深度学习的唇语识别

来源 :东南大学 | 被引量 : 0次 | 上传用户:zyfblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别任务是指通过说话人的嘴唇动作,识别出说话人的语言内容。唇语识别的关键是如何有效提取出能反映嘴唇运动信息的特征向量。深度神经网络可以通过目标函数和反向传播机制更新海量参数的权重,自动学习到与目标任务相关的特征,在唇语识别任务上取得了较好的结果,但是由于唇语识别任务本身的复杂性和嘴唇运动的多样性,唇语识别任务仍然存在很多难点和挑战。针对这些问题,本文提出了一种基于深度学习注意力机制的词语级别的唇语识别模型,并在带有上下文信息的目标单词的唇语识别任务上取得了很好的结果,模型在LRW数据集上的Top1准确率为86%,在LRW-1000数据集上的Top1准确率为38.58%。同时唇语识别任务需要语音端点检测,而在有噪声条件下,使用语音数据进行端点检测效果较差,因此本文利用嘴唇运动信息,提出了一种基于深度学习的视觉模型进行语音端点检测,在低信噪比声学条件下,视觉模型取得了比基于声学特征的传统机器学习算法和深度学习语音检测算法更好的端点检测效果。本文的主要工作和创新点如下:(1)提出了一种基于深度学习注意力机制的词语级别的唇语识别模型。该模型使用时空三维卷积提取嘴唇图像序列的时空特征,使用通道注意力机制对图像特征加权,提升有效特征抑制无效特征,使用长短期记忆网络对特征的时序关系建模,使用时序注意力机制对不同时间点的特征加权,学习不同时刻的特征与最后识别结果的相关性。最后通过与目前最优秀的唇语识别模型做对比,验证了本文模型的优越性,同时通过对比实验证明了通道注意力机制和时序注意力机制的有效性。(2)提出了一种基于深度学习的视觉模型进行语音端点检测任务,使用视觉模态的嘴唇运动信息作为输入,对一帧数据进行分类时,不仅使用当前该帧的数据,而且利用之前连续数帧的数据结合在一起作为输入,对于嘴唇图像数据,使用时空三维卷积网络提取图像序列中嘴唇区域的空间特征和嘴唇运动信息对应的短时间维度上的特征,通过长短时记忆网络进一步提取时间维度上特征,最后通过全连接层做分类,检测该帧数据为语音段或者非语音段。并通过实验验证在低信噪比声学条件下,视觉模型端点检测效果优于深度学习语音模型和基于语音特征的机器学习分类器模型。
其他文献
随着无线通信技术的发展,天线设计也面临着小型化、宽带化、多频化等多方面的设计需求,天线与阵列设计日趋复杂,设计自由度提升。传统的全波仿真计算虽然仿真结果相对精确,但计算成本较高,不利于需要大量重复仿真计算的优化过程或敏感性分析。本文针对机器学习辅助优化技术及其在天线设计中的应用开展深入研究,具体成果如下:首先,在研究电磁优化领域被引入的常用机器学习代理模型及相关优化算法基本原理的基础上,对比人工神
随着移动互联网的迅速发展以及智能移动终端的普及,越来越多的用户从传统的PC端上网逐渐转换到基于移动智能终端的移动互联网上。各种应用软件在颠覆用户生活习惯的同时,涉及到了用户的个人隐私,不可避免的带来了移动信息安全泄露的威胁。因此,基于移动终端的信息安全也成为了当下的热门研究方向。人脸识别技术主要是基于人的面部特征信息来进行身份识别,综合了人工智能、机器学习、图像处理等众多技术,其识别准确率也逐渐提
传感器节点的能量受限问题是无线传感器网络(WSNs,Wireless Sensor Networks)中的一个重要问题,它关乎到WSNs的使用寿命。近年来,利用无人机(UAV,Unmanned Aerial Vehicle)对节点进行充电引起了国内外学者的广泛关注。本学位论文重点研究了UAV辅助的WSNs充电策略,根据传感器节点的剩余电量和无人机的机载能量,在保证WSNs正常工作的情况下,优化UA
近年来,随着人工智能的兴起,无人驾驶技术逐渐成为研究的热门领域。无人驾驶汽车通过传感器感知周围环境,而环境感知主要包括目标的跟踪与识别。因此高精度的跟踪算法以及高准确率的识别算法对无人驾驶车辆的研究具有较大的推动作用。在目标的跟踪过程中,由于回波信号的非视距传播以及环境噪声干扰等因素导致观测信息中出现奇异值,从而影响算法的跟踪精度。此外,在目标识别过程中,传统的识别算法对类别不平衡问题较为敏感。然
大规模机器类通信(massive Machine Type Communication,m MTC)作为第五代(the Fifth-Generation,5G)移动通信系统的三大关键场景之一,广泛应用于智慧交通、城市大脑、健康监测等领域,为人类的生产和生活提供了极大的便利。与此同时,巨大的用户数、庞大的数据量以及复杂的业务场景,也对通信领域技术的革新提出了严峻的挑战,其中就包括对无线网络接入的控制
近些年来,随着移动智能设备的不断发展,运行于移动设备的应用程序越来越丰富,移动设备的资源和处理能力限制导致了某些应用程序无法满足用户的服务质量要求。克服这一问题的方法就是将移动设备上的计算密集型任务卸载到部署在网络边缘的云服务器上,称为移动边缘计算(Mobile Edge Computing,MEC)。然而,移动边缘云服务器的资源有限,不同的卸载策略和资源分配方式会显著影响用户的服务质量,因此,如
射频识别(Radio Frequency Identification,RFID)与传感技术是物联网的关键技术,其中,标签是射频识别与传感系统中必不可少的信息载体。与其他类型的标签相比,无源标签不含电池,因而成本低、结构简单且使用寿命长,但也存在功能有限等缺陷。因此,研究射频识别与传感系统的理论基础,探索无源标签的性能提升方法,实现不同应用场景下低成本、小型化、柔性的新型无源标签,对于射频识别技术
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首
随着深度学习技术的成熟和普及,以及在海量数据和丰富应用场景的催生下,以卷积神经网络为代表的深度卷积网络开始逐渐替代机器学习时代基于人工提取特征的传统算法。而不断逼近精度极限的代价就是网络深度、尺寸的增长,网络模型越来越趋于臃肿,这对于深度学习的产品落地化是一个严峻的考验。为了更好地在计算资源有限的设备端部署模型且不影响使用,模型压缩的相关研究应运而生。本文主要基于基础算法和具体应用场景,对模型压缩
随着工业4.0的到来,各行业正不断朝着智能化的方向发展,工业机器人作为工业生产中的关键技术之一,成为企业实现产业优化升级的重要部分。自动导引车作为机器人的一种,随着近年来各种导引技术的不断发展,其应用场景变得更加广泛,其中视觉导引由于其巨大的应用潜力成为自动导引技术中的研究热点。本文根据实际应用中在室内场景下的AGV小车行驶需求,提出一种基于场景识别、场景下辅助行驶和行驶中特征物检测的单目视觉AG