基于WFST的语音识别解码优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wys8800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语音识别技术突飞猛进。2011年,随着深度学习技术被引入语音识别领域,语音识别技术翻开了新的篇章。随后的几年里,卷积神经网络(convolutional neural network,CNN)、长短时记忆模型(Long Short Term Memory,LSTM)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。虽然语音识别技术的广泛使用已经让其深入人心,但是语音识别的性能仍然不能令人满意。作为语音识别的核心,解码器的性能直接关系着语音识别的应用与用户体验。如何提高解码器的性能与速度一直是该领域的重要研究课题。随着计算机硬件和软件的快速发展,使得基于加权有限状态转换器(Weighted Finite State Transducers,WFST)的静态网络解码器运用于实际系统成为可能。但是当前的WFST还存在不少问题,WFST的大小和构建语言模型的文本量几乎呈线性关系,WFST是一个有向图,巨大的网络加载到内存中会占用巨大的内存资源,不同的加载方式占用内存大小也有明显的差别。另一方面,当前WFST解码器的速度针对声学模型的特点还有待进一步提高。同时,解码器的精度也可以结合当前比较流行的循环神经网络(Recurrent Neural Networks,RNN)语言模型进一步提高。本文的研究目标是降低WFST的大小,优化WFST的存储结构便于运用于实际系统中,另外加快解码器的解码速度,提高解码器精度。论文的主要内容和创新点如下:  1.针对解码网络占用内存过大的问题,在准确率没有明显降低的情况下降低WFST的大小,并且降低解码网络在内存中占用。降低WFST的大小使用了三种方法:1、对N-gram语言模型进行剪枝,采用基于相对熵的N元剪枝方法,使得剪枝前后模型的相对熵尽量小,剪枝后的模型尽量逼近剪枝前的模型,不同的剪枝力度得到的WFST大小不同,如果剪枝力度太大,解码网络的能变很小,但是精度降低。相反,剪枝力度太小时解码网络大小变化不大。剪枝需要寻找一个平衡点,在尽量不明显降低准确率的情况下尽量降低解码网络的大小;2、优化WFST的结构,基于连接时序分类(Connectionist Temporal Classification,CTC)声学模型的WFST由三部分组成:语言模型、发音词典和音素,这三部分均可表示成WFST的形式。其中语言模型使用方法1的剪枝可以显著降低大小,发音词典是固定的,优化的可能较小,通过设计音素的WFST形式,去除音素的WFST中的冗余部分,能使最终的解码网络降低30%-40%,由于是等效变换,解码器的精度不受影响;3、改变WFST在内存中的存储结构,常用的网络在内存加载方式是链式结构,将链式结构改为连续结构,内存占用降低50%以上。  2.针对解码器解码速度慢的问题,提出两种加快解码速度的方法:跳帧和剪枝。这两种方法均是针对声学模型的损失函数CTC,计算后验概率的时候只在某一帧或者连续的某几帧出现标签(Label)的“尖峰”,其他帧为另外引入的一个标签,基于CTC的声学模型计算出的后验概率有大约80%的语音帧会标记为。针对这个特点跳帧的策略是:帧不参与解码,只参与声学模型的后验概率计算,这样只有大约20%的语音帧参加解码,能显著加快解码速度。另外一个加速方法剪枝的策略是:所有帧均参与解码,但是当解码是帧的时候,只有少量令牌加入到解码器中,其他令牌被剪掉,其他语音帧保持不变,这样整个搜索空间大大减小。实验表明这两种方法均能在不明显降低解码器的精度的前提下显著加快解码,尤其是第1种方法准确率略有提高。  3.针对解码精度的问题,使用N-gram结合RNN语言模型进行二次解码,提高语音识别准确率。由于N-gram对语句中长距依存描述能力较弱和数据稀疏的问题,而RNN语言模型能较好缓解这两个问题,所以结合N-gram和RNN用于二次解码是个很好的选择。由于RNN训练速度较慢,尤其当词表和文本规模较大的时候,RNN训练有明显的瓶颈,本文探索了不同的RNN优化方法和加速方法,使得RNN的训练速度有较大的提高。其次,由于RNN相比于N-gram而言计算较慢,无法直接运用于一次解码,所以先利用N-gram一次解码缩小搜索空间,再利用RNN结合N-gram进行二次解码。实验表明二次解码能提高解码精度。另外,由于RNN能利用通用网络进行某一领域的自适应,本文还探索了RNN自适应对识别性能的提高。
其他文献
海底热流数据是开展海洋油气资源综合评价的一个重要参数。利用测量的海底热流数据,结合盆地演化认识和数值手段,可以获得各烃源层所经历的温度史,借助有机质成熟模型,有望揭
月球是离地球最近的天体,探索月球是人类认识太空的第一步。相比地球,月球环境非常恶劣,人类无法长时间在月球上进行各种考察活动,将月球探测车送上月球,通过其采集月表的岩
学位
在人机交互、智能监控、视频检索等领域,人体行为识别具有很大的应用价值。它已吸引了众多研究者专注于这个方向的研究。近年来,基于RGB视频的人体行为识别的研究取得了很大进
近些年大数据的兴起和高性能计算的普及,缓解了传统深度神经网络易过拟合和计算复杂度高等缺陷。由此,深度神经网络强大的数据表示能力得以被释放,并逐渐发展成为一个独立的领域
机器人技术代表了高技术的发展前沿,自从上世纪中叶起,这门技术越来越被世界各国所重视,各种各样的机器人被生产出来为人类从事着各种工作。履带式移动机器人是机器人学中的
学位
随着互联网技术的高速发展以及便携式数码设备的快速普及,形式丰富且表现力强的图像、视频等多媒体数据逐渐成为人们获取和表达信息的重要载体。这些多媒体数据包含了大量自然
输电线路巡检机器人是当前特种作业机器人的研究热点之一,其能量(主要是电池)管理问题是目前输电线路巡检机器人研究的关键问题之一。在国家“863”项目“500kV超高压输电线
学位
当今世界,电子工业技术发展日新月异,各个领域的电子产品更新换代速度惊人。对电子工业产业密切相关的铜板带加工行业来说,更加多样的客户需求与愈发苛刻性能指标,意味着极大
学位
催化裂化装置是石油二次加工的主要方法,但其主分馏塔和吸收稳定系统组成的分离系统面临着节能降耗、受上游操作影响较大等一系列问题困扰。本文使用流程模拟软件UniSimDesig
本课题是以某型反坦克导弹的测试和评估平台开发为研究背景,研究并实现可模拟导弹在测角仪视场内进行二维平面运动的仿真装置。本文将基于ARM的嵌入式芯片技术应用于弹标模拟