基于BPE和Transformer的汉语语音识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:minjiangfashion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的每一帧进行标注。BPE算法通过迭代地合并文本中出现最频繁的单元并将其添加到子词单元集合中,自动地学习和发现识别单元的最佳集合,也能自动地学习分解目标序列的最合适的方式。另外,本文利用Transformer网络实现了从声学模型输出的音节序列到文字的解码过程。相比n-gram模型,Transformer网络更容易捕获句子中长距离的相互依赖的特征,这样能充分利用语境信息,在音字转换中发挥更大优势。经过实验对比,改进的语言模型系统性能得到提升。而且相比循环神经网络(Recurrent Neural Network,RNN),Transformer对于增加计算的并行性也有直接作用,适合语言模型建模任务。基于BPE的声学建模和基于Transformer的语言模型建模技术结合起来,在汉语识别准确率上性能有了明显的提升。
其他文献
根据新课标发展要求,将核心素养作为关键内容进行培养是新的物理教学要求,因此当下,教育教学注重于培养学生的全面综合的发展,旨在培养现代社会需要的人才。高中物理是物理学
<正> 近年来国内外报道致病性弧菌所引起的腹泻和肠道外感染日益增多,麦契尼可夫弧菌(以下简称麦氏弧菌)是其中之一。为了调查麦氏弧菌在外环境中的分布特点及其影响因素并试
目的:观察布地奈德雾化吸入治疗小儿肺炎的临床效果。方法:选取2016年1月至2018年1月本院收治的128例确认为小儿肺炎患者为本次研究对象,并且按照随机分组原则分为两组:对照组和
笔者自2000年以来采用小针刀松解风池穴的方法,治疗枕大神经痛60例,疗效满意,现报告如下。1 一般资料60例中,男28例,女32例;年龄最小30岁,最大68岁;病程最短1年,最长15年。患者均在风
生态脆弱性已成为当前全球化和可持续发展的热点问题,其中的区域人地系统的整体响应更是当前国内外的研究重点[1-3]。我国是世界上生态脆弱性表现最为明显的国家,而且,生态脆
根据本书提出的概念分析.结果也完全是理论上的并初步涉及到有关经济一环境相互关系的认识论问题。有几个问题在本书中多次出现,在这里需要再次提到.它包括三个主要原则:
<正> 当今对卫生害虫的防治非常强调和重视综合防治,以昆虫生态学为基础,以环境防治为主的观点,已普遍为人们所接受。而在目前和未来相当长时期内,化学防治仍然是重要的防治
人胎肝细胞悬液治疗病毒性肝炎效果观察董秀琴,杨秀芳,张秀生,张希军1989年10月至1992年5月我们应用人胎肝细胞(FLC)悬液静脉输注治疗各型病毒性肝炎93例,同时设对照组56例进行效果观察,现报告如下。1资
阴极电泳涂料凭借其独特的外加电场的沉积方式,在不破坏金属基材的同时,能够在基材表面制得平整、可控、均一和高附着力的涂层,因此已经成为金属防护涂层领域的研究热点。随
整理著名针灸学家靳瑞教授对现代针刺补泻手法特点的论述,古代针刺手法补泻重点在于针下出现寒热的结果,现代针刺手法受到神经学说的影响以刺激量为要,以酸麻胀痛等的神经感应为