基于深度学习的句子级别唇语识别的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:dianzi511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是一项将说话人嘴唇区域的运动解码为文本的任务。句子级别的唇语识别能够解决聋哑人群体与正常人沟通的障碍,还能够改善在嘈杂或无声环境下的语音识别。近年来,基于深度神经网络的唇语识别方法受到广泛关注,而且准确率已经远远超过了在唇读方面有经验的人类。然而,句子级别的唇语识别领域仍然存在许多具有挑战性的问题需要解决。本文的主要研究工作如下:(1)基于通道注意力机制与选择性特征融合模块,提出一种端到端的句子级别唇语识别模型。该模型利用三维卷积神经网络提取视频片段中嘴唇区域的短期时空特征,同时利用通道注意力模块过滤无用特征,再由选择性特征融合模块提取更细粒度的抽象特征。再经过双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi GRU)提取出长时的时空语义信息,最后通过级联时序分类器(Connectionist Temporal Classification,CTC)来生成自然语句。该模型在GRID数据集上字符错误率和单词错误率分别只有1.0%和2.3%,优于现有其他方法。(2)现有方法对于中文唇语的识别效果较差,并且多尺度的时序特征较单一尺度的时序特征更适合于唇语识别任务,本文提出了一种基于多尺度时序特征的唇语识别模型。该方法利用双分支三维卷积神经网络提取输入图像序列中不同尺度的短时视觉特征,接着利用Res Net逐帧提取更细粒度的视觉特征。随后再利用多分支时间卷积网络(Temporal Convolution Network,TCN)提取特征序列中不同尺度的语义信息。该方法在GRID和Chinese Mandarin Lip Reading(CMLR)数据集上的单词(汉字)错误率分别只有1.0%和24.0%,证明了该方法的有效性。
其他文献
跨模态视觉内容生成是指通过多种模态信息的输入完成视觉内容的生成,它同时涉及多个领域,如计算机视觉、自然语言处理,因此它的实现需要依靠深度学习、图片生成、文本特征编码等多种基础技术。视觉内容包括图片、视频等形式。目前的文本到图片生成模型,难以保证在复杂环境下生成结果的语义一致性与真实性。而视频生成模型方面,直接对视频进行建模的模型表现还较差,主要体现在视频帧的连贯性上以及运动内容的一致性和真实性等问
学位
雾霾是一种传统的大气现象,其中的雾霾、烟和灰尘等颗粒会遮盖大气的透明度。而且由于空气污染(粉尘、雾气和烟雾),在室外环境中拍摄的图像通常也会遇到复杂,非线性和与数据相关的噪声。作为图像恢复技术,图像去雾在计算机视觉中受到了广泛的关注,并有利于后续的高级任务,例如目标检测。图像去雾是计算机视觉和多媒体技术领域的一项基本任务。它在进行去雾的过程中一般面临以下几方面挑战:i)图像中雾度的不均匀分布;ii
学位
随着信息获取技术的快速发展,互联网上产生了海量的多媒体资源,在大数据时代下,这些多模态数据的管理给传统单模态检索方式带来极大的挑战。为了能够更有效地检索出用户需求内容,所以有必要研究快速且精确的跨模态检索方法。由于不同模态数据具有不同空间分布,所以存在异构鸿沟。另外,底层表示和高层语义之间也存在语义鸿沟。如何解决跨模态数据的语义鸿沟和异构鸿沟一直是亟需解决的问题。目前大多数跨模态方法都是学习一个公
学位
视频问答任务(Video Question Answering,Video QA)旨在根据视频和基于视频的自然语言问题推断出正确答案,因此视频问答是解决从海量数据中提取需要视频内容的重要方式之一,是理解精细化视频内容的研究之一,同时也是研究跨模态信息(视频、音频以及文本)融合与推理的关键任务之一。视频是由多帧静态图像组成的动态视觉内容,相邻视频帧之间的整体内容变化往往比较微弱,因此相邻帧中的对象往
学位
恶劣环境下拍摄的图像通常会存在明显的退化现象,导致图像内容缺失,视觉质量下降。单幅图像去雨和暗光图像增强是恶劣环境下图像复原与增强的重要任务。单幅图像去雨任务旨在去除雨图中的雨纹,复原图像的本真样貌。然而图像去雨过程中往往还会出现图像纹理细节信息模糊和丢失的问题。暗光图像增强任务旨在增强暗光图像的亮度,使图像内容能够清晰完整地展现。然而暗光增强过程中往往还会出现噪声放大、细节模糊和色彩偏差的问题。
学位
随着互联网和多媒体技术的快速发展,网络上每时每刻都在产生大量的、内容复杂的视觉数据。如何利用机器学习算法自动地从复杂数据中提取出有价值的信息,进而用于处理后期的分类或聚类任务,逐渐成为了近来热门的研究课题。由于真实世界中的视觉数据通常缺少标记信息,而传统的监督学习方法需要采用费时费力人工方式进行标注,因此在应用上受到限制。相比于监督方法,半监督方法可以使用少量的有标记样本和大量的无标记样本进行学习
学位
心率是一项人体重要的生理指标,心率指标的准确监测对健康医疗和疾病预防有着重要的研究意义和实用价值。其中非接触式的心率检测方法中的远程光电容积描记术(r PPG)技术以便捷、安全和低成本的优势成为目前研究的热点。但该项技术存在一些限制,如视频冗余信息、头部运动、光照强度变化以及其他生理信号的干扰。因此,为了克服上述限制,本文设计了新颖的端到端的神经网络,学习从面部视频信息到真实心率的映射关系。主要工
学位
随着人工智能的发展,计算机作为智能设备的基础,其对于各类模态所呈现信息的理解渐渐成为研究主流。图像与文本作为日常生活中常出现的模态,二者之间的蕴涵关系推理也成为推进人工智能对于现实社会理解的重要途径。目前以图像与文本作为主要输入模态的任务有视觉问答(Visual Question Answering,VQA)、图像描述生成、文本生成图像等。视觉蕴涵推理源于文本单模态的语义蕴涵推理(Textual
学位
随着人们对生活品质的要求日益提高,食品安全也成为大众的聚焦点之一。“假烟”、“假酒”等问题层出不穷,不仅危害了正规渠道商家的利益,更危害了人民群众的身体健康。因此,材料识别研究成为了一个重要的研究方向。而随着无线通信技术的发展更加成熟,WiFi的普及率涨幅也十分迅猛,它不仅体积小、价格低,还有极强的非侵入性,部署也十分简单。因此,使用WiFi设备实现材料识别研究也越来越深入人心。本文使用了WiFi
学位
蒙特卡罗程序在医学、核辐射物理和反应堆物理等领域有广泛的应用,但其三维几何模型的低效建模方式严重影响了该方法的应用效率,因此人们希望能够利用商业CAD软件来提升蒙特卡罗程序的几何模型建模效率。但与蒙特卡罗程序采用构造实体几何表示法(Constructive Solid Geometry,CSG)不同,商业CAD软件普遍采用的是边界表示法(Boundary Representation,BRep),
学位