端到端的语音识别研究

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:tjyydtj1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算力和数据量的提升,深度学习成为了语音识别领域最火热的方法之一。在深度学习的影响下,基于隐马尔可夫模型和神经网络(Hidden Markov Model-Depp Neural Network,HMM-DNN)方法的混合语音识别系统在识别准确率上有了显著的提升,这主要得益于大数据驱动下深层神经网络对声学状态后验概率的强大建模能力。尽管如此,混合系统仍然存在着训练流程复杂,解码空间大等问题。为了简化整个语音识别的过程,端到端的语音识别方法横空出世。其方法主要可以分为三类:连续时间分类模型(Connectionist Temporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力机制的序列模型(Attention-based End-to-End Model,A-E2E)。端到端的模型在简化语音识别的流程的同时,在某些任务上已经能够与混合系统媲美。但是该方法仍然存在很多问题。对此,本文选取两种典型的端到端模型进行了深入的研究,具体如下:1.研究了基于CTC模型的端到端语音识别方法,并提出了一种符合人耳听觉特性的全梅尔频谱特征。在基于神经网络的语音识别系统中,语音的前端处理网络结构一直未有定论。本文通过对比不同语音输入特征的优势提出了一种新的全梅尔频谱特征,同时将该特征与卷积神经网络(Convolutional Neural Network,CNN)结合作为语音的前端处理网络得到了理想的效果。进一步,本文探究了浅层CNN在CTC框架中的作用及其卷积核参数的设计原则。2.研究了基于注意力机制的序列模型,实现了听,注意,拼写(Listen Attend and Spell,LAS)的语音识别框架,并提出了一种新的加入词级别语言模型解码的方法。通常情况下,LAS模型存在训练难收敛,解码效果差等问题,本文实现了基于LAS的端到端语音识别系统,并在该系统下对LAS模型进行优化,包括训练和解码的技巧。同时LAS模型的外部语言模型融合问题也是一大难点,本文针对LAS模型解码难以加入词级别语言模型的问题提出了一种新的解决思路。3、研究了LAS模型中区分性训练的问题,在LAS模型中提出了基于最大互信息准则的区分性训练方法。与传统语音识别方法一样,为了能够进一步提升模型的识别能力,LAS的区分性训练是一个亟待解决的问题。本文借鉴传统语音识别中的方法,在LAS上实现了基于最小词错率(Minimum Word Error Rate,MWER)的区分性训练方法,并提出了基于最大互信息(Maximum Mutual Information,MMI)的区分性训练方法。实验表明,MMI与MWER准则相比于交叉熵准则在识别率上均有提升。4、研究了 LAS模型的在线化问题,提出了一种自适应单调窗注意力机制(Adaptive Monotonic Chunkwise Attention,AMoChA)。标准的LAS模型往往不能满足语音识别低延迟的要求,难以在线使用。本文提出了一种实现LAS模型流式的方法,在encoder端使用延时控制结构,在注意力部分提出了一种流式的注意力机制。最后在1000h搜狗中文听写数据集上,该方法降低了LAS模型的延迟,能够实时解码,同时字错误率相比离线LAS模型仅相差相对3.5%,在一个可以接受的范围内。综上,本文对两种端到端的语音识别方法(CTC和LAS)进行了探究。对于LAS模型中存在的外部语言模型,区分性训练,在线化等问题进行了探讨并尝试解决,最后均取得不错的效果。
其他文献
研究目的:本研究通过在中国知网、万方维普等数据库中对2012年12月31日至2017年12月31日中国期刊中有关中医治疗糖尿病周围神经病变的文献的收集,运用Excel、SPSS软件对文献
目前,对外汉语初级综合教材编写质量参差不齐,教材编写者对教材中的文化内容重视程度仍然不足,如何在对外汉语教材中较好地导入文化因素,采用何种导入方法更为学习者所接受已成为亟待解决的问题,本文所要探究的就是对外汉语初级综合教材中文化因素导入方法的问题。绪论部分,笔者主要介绍本文的研究缘起、思路、对象及研究方法。通过文献法搜集整理与初级汉语综合教材的编写相关的专著、期刊论文、硕博论文、会议论文等,并从中
随着市场竞争不断加剧,工程机械制造企业的销售利润逐渐下降,销售成本不断增加,产品销售效率的高低直接影响到企业的销售收入和利润,要求企业对其产品组合进行分析和重新定位,最佳
本文将对外汉语教学中的趣味性教学法理论研究与具体的泰国汉语教学课堂实践相结合,试图探索出适用于泰国汉语课堂的趣味性教学法。作者亲历泰国初级汉语教学课堂一线,通过真
以应用型本科院校人才培养目标定位为前提,对《管理学》课程网络教学资源建设进行研究,认为在网络资源建设时主要应体现教学设计思想、课程特色、问题任务活动的设计、新的师
个体具有自我面孔识别优势,即个体对自我面孔的反应速度快于对他人面孔的反应速度。个体在面孔识别中的这种自我优势效应在外显和内隐的面孔识别任务中都有所体现。研究者提
自20世纪中叶以来,博物馆界开始改变,“博物馆的价值”这一话题成为解答“为什么要改变、如何改变”等发展问题与理念的前提性思考。$$关于“博物馆的价值”$$从人类对自身、社
报纸
近年来,国际邮轮市场持续火爆,令各主要造船企业跃跃欲试。但邮轮建造主要集中在欧洲船企。为切入邮轮建造这一市场,我国船舶工业近年来积极做出各种努力。但我国在邮轮设计
在《围城》这一部文学作品中,讽刺性夸张大量存在,并且体现出其独有的特性。这一类特殊的语言表达体现了钱钟书先生幽默讽刺的写作风格,也是作者形象地描述人物及其所处环境
人格与社会心理学中将有关自我、他人和社会群体特质、动机意图、行为等的社会认知内容归纳为两个基本维度:能动性和温暖性(社群性)。温暖性是与他人交往过程中表现出来的或是