基于深度学习的唇读方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zjx1978_0901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读,旨在通过说话者嘴唇及其周围区域的视觉信息,解码其所说文本内容,是计算机视觉领域的一个重要问题,在公共安防、健康医疗、军事情报等领域有着广泛的应用价值。近年来,深度学习技术的兴起、大规模唇读数据集的构建和计算机算力的提升极大推动了唇读研究进展,取得里程碑式的突破。本课题围绕唇部运动规律和深度网络结构特点,对基于深度学习的唇读方法进行探索研究,分别对当前主流唇读方法的特征提取前端网络和序列建模后端网络进行改进,并且在公开的大规模数据集上进行测试,结果表明上述改进取得了比较好的结果。主要工作包括以下三个方面:(1)针对普通卷积神经网络无法显式捕获到人脸各区域语义关系的特点,构建双流前端网络,额外使用图卷积网络对输入数据进行特征提取,将两者提取到的特征进行融合,增加特征的鲁棒性和鉴别力。(2)针对循环神经网络参数多和训练困难等问题,使用时空卷积网络进行序列建模。对其进行改进,使用多个分支同时编码短期和长期时间信息,并使用深度可分离卷积大幅减少模型参数。(3)我们将提出的网络结构在公开的大规模基准唇读数据集LRW上进行训练和测试,结果表明上述网络结构在性能上取得了提升。
其他文献
随着线上服装消费潮流的盛行,各大电子商务平台每天都会产生大量的服装购买数据,由于用户数量以及服装种类的不断增多,用户数据的稀疏性、复杂性给服装推荐模型的优化造成了大量的阻碍。现有的服装推荐模型对数据缺失较为敏感、对数据集的容错率较低、对离散型数据的处理效果较差,且只能给用户提供与推荐结果相关的图文信息,用户无法进行试穿,这会降低用户的购物体验并产生大量遗憾消费。因此,顺应机器学习技术、大数据分析技
学位
从公元3世纪开始,罗马帝国异教神庙的修建活动就趋于停滞,新建神庙的规模缩水了,献祭仪式也经历了一个衰弱的过程。异教的衰弱除了受到基督教的强势压迫,也是其自身演变的结果。
期刊
当今社会,随着生活节奏的不断加快,人们生活压力逐渐增大,现代人们很容易产生一些不良情绪,这些不良情绪如果没有及时消化会严重影响人们的精神状态和身体健康。高校学生是一个非常典型的社会群体,在面临着学业、就业等压力的情况下,很容易出现紧张、不安和焦虑等负面情绪,长期处于这样一种精神状态下极易诱发抑郁等心理疾病,严重的甚至会做出一些过激性行为,例如自残或自杀等,这些问题变得越来越普遍,受到了社会的广泛关
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式微波成像探测器,由于其具备全天时、全天候的对地观测能力,因而广泛应用于军事(如战场侦查)与民用(如海洋监视)等领域。作为SAR图像解译的重要分支,SAR图像目标识别旨在从SAR图像中根据感兴趣目标的特征,对其进行定位与识别。近年来,得益于高分辨率SAR图像较以往更加容易获取,基于深度学习的SAR自动目标识别技术也取
学位
街景分割是分割目标为街景图像的语义分割。随着深度学习的发展,基于卷积神经网络的街景分割方法获得了巨大发展。然而,当训练数据和测试数据中存在较大的领域差距时,神经网络模型会急剧退化,这种现象被称为域偏移。为了解决该问题,本文实现了如下的研究工作和创新点:1、实现了一个基于生成对抗学习的无监督域适应街景分割算法原型。通过生成对抗学习的思想,将分割网络视为生成器,添加额外的判别器来拉近目标域与源域的输出
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船目标检测技术可以自动标注SAR图像中舰船所在位置,其在军事和民用领域都具有重要应用价值。SAR高分辨率成像技术的不断发展,丰富了目标特征信息,为深度学习技术在SAR图像检测领域的应用提供了数据基础。SAR图像具有场景大目标小的特点,并且图像中舰船目标尺寸跨度大,舰船形态多样,多种尺度的舰船目标给检测过程增加了一定难度。
学位
线性调频(Linear Frequency Modulated,LFM)信号,以其低截获率(Low Probability of Intercept,LPI)特性被广泛应用于各种雷达系统中,是一种应用极其广泛的辐射源信号。LFM信号的检测与参数估计算法已经相对成熟,不同的算法适用于不同的电磁场景,但它们大多只能估计LFM信号时频脊线的调制参数,而且存在估计精度与计算效率之间的矛盾。对于雷达系统中的
学位
由于浅海声传播特性复杂多变,因此浅海环境下水声目标定位技术一直是水声学领域的热点和难点。该技术的典型代表是匹配场处理,其在海洋环境参数已知条件下通过水声传播模型生成拷贝声场,与阵列接收数据进行匹配,实现目标定位。然而在实际应用中,海洋环境参数(声速剖面、海深、海底地质参数等)存在诸多不确定性,使得拷贝声场计算不准确,导致匹配场处理性能急剧恶化甚至失效。随着计算机图形处理单元运算性能的提高以及深度学
学位
随着人工智能和计算机视觉领域的快速发展,深度学习作为人工智能下的子学科在视觉分析任务中占据了重要位置。深度学习用包含大量神经元的神经网络来提取图像中有用的特征进行信息分析。利用深度学习的方法来进行图像分析已经形成了较为规范的分析框架,包括对网络模型的训练,学习输入到输出的关系映射,从而对未知的输入进行模式预测。该框架具有很强的通用性,通过较少的调整就能解决很多图像上类似的问题。医学是一个数据急剧增
学位
当前,随着数据以指数形式增长,大量的信息蕴含在其中,如何有效地利用其中的有用信息,从海量文本数据中自动的抽取出有用的信息,更为具体地,如何从文本中抽取出潜在的语义关系元组则成为了关键的问题。关系元组抽取任务就是为了专门研究和解决这一问题而提出的。根据预先定义的关系的种类数目的不同,关系元组抽取任务可以分为单关系元组抽取和多关系元组抽取。在单关系元组抽取任务中,本文以情感原因对的提取为例,针对现有模
学位