基于深度学习的唇读系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fugle0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读是一种仅靠唇部运动传递的视觉信息识别说话人言语信息的技术,其也被称为视觉语音识别。唇读技术不受声音信号信噪比高低的影响,能够克服语音识别在复杂场景下的不足,因此开展对唇读技术的研究能够拓宽人机交互的应用场景,具有重要的研究意义和使用价值。唇读涉及计算机视觉、自然语言处理等领域相关技术,是一种综合性较强具有一定的挑战性的学科。随着人工智能技术的快速发展,基于数据驱动的深度学习为唇读技术提供了新的发展方向,唇读系统能够取得远超人类的识别准确度,但仍不能满足实际使用需求。同时唇读系统通常有巨额参数量,极大限制了唇读的使用场景。本文以唇读核心技术为突破,以数据集实现和系统开发为主要工作,在经典唇读结构上进行改进,提出轻量化高性能唇部运动特征提取、音频特征重建及特征融合方法,从实战出发设计并实现了一个基于深度学习的高实用性唇读系统。本文主要工作和创新点如下:(1)提出一种高扩展性唇部运动特征提取方法。改进时域特征提取结构并引入通道注意力模块提升特征提取精度,两种改进方法都能嵌入到大部分主流的特征提取网络中,具有良好的通用性及扩展性。(2)实现了一个未来可在移动端部署的轻量化唇部运动特征提取模块。通过使用轻量化卷积网络,结合高扩展性唇部运动特征提取模块,实现了轻量化的唇部运动特征提取。在牺牲较小性能大幅降低模型复杂度,极大拓宽了唇读系统的使用场景。(3)提出并实现了视觉特征与重建音频特征融合建模的唇读流程。在解决训练集中音频信息浪费问题的同时,充分利用现有数据集中的音视频数据进行训练,通过对不同状态空间的特征进行融合建模,大幅提升了唇读系统的准确性。
其他文献
随着5G网络的发展,未来5G网络将为多样化业务场景提供网络服务支持,这些业务场景具有差异化的服务特性与服务质量需求。同时,随着新兴的垂直行业业务的快速发展,服务对通信、计算、缓存等多维资源的需求爆炸式增长。因此,为差异化服务分配多维资源,保证多样化服务质量需求的同时提升资源利用效率成为一大重要问题。网络切片技术可以将一个物理网络划分为几个虚拟网络,针对特定类型的应用程序,为每个虚拟网络分配差异化的
近年来,随着物联网技术的不断发展,面向海量设备接入的低功耗广域网(Low-Power Wide-Area Network,LPWAN)受到广泛关注,特别是基于LoRa(LongRange)技术的LPWAN。但是,随着接入节点数量的增加以及数据的频繁发送,LoRa网络会出现下行数据冲突、数据到达超时和信道争用等问题,导致网络性能的恶化。为了解决上述问题并提升网络性能,本文设计和实现了面向多节点LoR
基于PatchMatch的多视图立体算法在三维重建上的精确度和完整度方面已经取得了显著的进步,但是其中深度估计环节仍然存在对于图像弱纹理区域匹配二义性的问题,导致了重建点云在场景弱纹理表面的空缺。本文对多视图PatchMatch深度估计算法进行了深入研究,提出了一种基于置信传播的多视图深度估计算法来解决这一问题。本文主要完成了以下工作:(1)在多视图立体匹配中定义了匹配置信度的概念。本文基于图像块
10月1日国庆节就要到了.每到这个日子都会引起我对往日的回忆.今年是中华人民共和国成立72周年.我已从一个稚气少年变成了耄耋老人.但是岁月的流逝带不走我童年的记忆.解放前后鼓舞我们积极向上的歌曲,虽已久绝于耳,却又在脑海里复活了.rn我曾经经历过日寇占领时期的苦难生活.1945年好不容易盼来抗战的胜利,国民党发动的内战又把人们带入水深火热之中.那时,我生活在镇江.1949年年初,临近解放,大多数人家过着赤贫的生活.街上不时会发现倒毙的饿殍.一度传闻宝盖山发现了“观音土”.饥饿的人们纷纷前往采挖,后来报纸报
期刊
新时代反映道德风尚的小说文本和影视作品比比皆是,宣扬社会正能量和传统主义道德美德成为当下现实主义题材的叙事主题之一.在镇江本土电影《寻人启示录》中,大胆注入了戏剧荒诞性元素,打破电影本体叙事方式,显得新颖有趣,通过三重隐喻,折射人性的多面性和复杂性,具有重塑新时代道德风尚的现实意义.
期刊
期刊
期刊
期刊
期刊
期刊