基于Transformer的中文语音识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xigongdaxigongda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别发展迅速,端到端语音识别更因其结构简洁、目标统一等优点,已达到可以和传统语音识别媲美的程度。其中,基于Transformer的端到端语音识别框架因其优秀的建模能力已广泛应用于离线语音识别领域,但目前的研究仍存在一些问题。一方面Transformer模型的优秀性能得益于自注意力模块的全局建模能力,但中文由于其同音异形字、词组等特殊结构,自注意力模块缺乏对其局部建模能力;同时训练过程中自注意力机制可以大规模并发运算从而提升训练效率,但也加重了曝光误差。因此如何提升局部建模能力、改善曝光误差现象尤为重要。另一方面,Transformer解码耗时过长,尤其句子变长时解码时间会明显激增,从而导致性能下降。本文充分考虑中文语音的特点,针对以上的问题,主要研究内容和成果如下:(1)提出基于局部时序依赖的Transformer模型。针对模型编码器缺乏语音特征序列局部建模能力的问题,提出局部密集合成注意力算法,重点关注局部范围帧,同全局自注意力机制结合能有效改善模型建模的能力;针对模型解码器缺乏对目标文字序列的局部建模问题,提出损失自适应局部掩蔽采样方法,降低曝光误差并加强对常见汉语组词方式的局部建模。将上述两种算法结合进Transformer模型,类比基础Transformer模型在中文数据集Aishell1、Aishell2上可获得约13.8%、9.3%的精度提升。(2)提出基于Transformer的语音识别解码速度优化算法,包括模型推理加速、搜索优化两部分。其中模型推理加速主要涉及解码器不同注意力模块,包含自注意力模块加速、编-解码注意力模块加速,类比基础Transformer模型可在模型性能无精度损失的基础上降低相对25%解码耗时。搜索优化则包括集束搜索算法优化、非自回归解码方法两部分。集束搜索算法优化包含动-静态阈值解码加速,类比基础Transformer模型解码流程,有效裁剪置信度较低的解码路径,同模型推理加速结合可相对降低45%解码耗时。最后在模型中引入连接时序分类损失函数,并在其前缀预测结果中融入Transformer解码分数,提出的非自回归解码算法可替代Transformer自回归解码方式,相较于集束搜索优化效果与模型推理加速融合的方法可提升近一倍的模型解码速度,使性能达到更优。
其他文献
罗浮山位于广东省惠州市博罗县,具有优越的地理区位和丰富的自然资源与历史文化资源,是岭南道教的发源地,也是国内道教名山的典型。目前已有文史研究、道教建筑、风景区开发利用等相关研究成果,但相较于北方、江南的道教名山,对罗浮山整体道教景观的研究还有待深入。本文基于风景园林史学和风景园林美学结合的研究视角,以罗浮山道教景观为研究对象,运用跨学科交叉综合研究、文献研究、实地调研、图像分析等方法,先探究罗浮山
引起视疲劳的因素有屈光不正、调节障碍、眼外肌肉异常、干眼症、VDT环境等等。由于笔者自身有较为严重的调节性视疲劳,近距离用眼就会头昏眼花,所以本课题从笔者自身出发,主要研究能够缓解调节性视疲劳的眼部产品。治疗调节性视疲劳公认的办法是视觉训练中的手动反转拍,反转拍是由两对凹凸镜组成,其原理是凹镜能使睫状肌收紧,凸镜能使睫状肌放松,通过凹凸镜的连续反转使睫状肌能够连续放松收紧,从而达到有效缓解治疗视疲
同时定位与建图(Simultaneous Localization and Mapping,SLAM)是实现机器人自主导航的关键。但采用单一传感器的SLAM系统存在各种问题,如纯视觉SLAM在光照强度突变、机器人运动过快和纹理不明显等情况下容易失效,而激光雷达获取的信息不够丰富,在几何结构相似的场景中,容易出现回环检测错误的情况,影响建图精度。因此,对于关注的地面四驱车辆定位与建图问题,本文研究了
超高分子量聚乙烯(ultrahigh-molecular-weight polyethylene,UHMWPE)具有优异的耐磨损性能、抗冲击性能和自润滑性能,其管件、滑轮等中空制件在工业管道运输和轻工机械等行业得到广泛应用。但UHMWPE极长的分子链易造成严重的分子缠结,使得熔体流动性极大降低,几乎没有一般聚合物所表现出的黏流态。使用传统聚合物成型装备加工UHMWPE不仅生产效率低、能耗大,而且制
AB5型储氢合金由于其优越的综合性能被广泛应用于镍氢电池负极材料。随着经济的快速发展,镍氢电池市场对商用AB5型合金成本高和循环寿命及低温性能提出了更高要求。本文以商用合金La0.585Ce0.19Zr0.025Sm0.2Ni4.337Co0.163Mn0.253Al0.350为基础,通过改变合金化学计量比及退火工艺条件优化了合金的电化学性能。首先,本文通过感应熔炼法制备了一批含Sm低Co类过化学
智能汽车的发展对减少交通事故的发生和减小交通事故的伤害具有重要意义。智能汽车在面对复杂的交通环境需要解决的技术难题是环境信息融合感知、主动避撞等技术难题。为智能汽车在复杂的交通环境下识别危险的驾驶场景,提供可行的碰撞预警策略和测试验证场景,进行了自动驾驶汽车测试场景构建、车辆交通环境主要道路使用者目标检测和跟踪以及智能汽车碰撞预警策略的研究,主要工作如下:(1)针对自动驾驶汽车安全性测试验证中海量
四环素是一种常用的医用、兽用抗生素,四环素在水环境中富集会破坏生态环境,诱导抗性基因的产生并危及人体健康。由于水中残留四环素对微生物的胁迫,污水处理系统难以实现水中四环素的高效去除,因此亟需寻求高效、环境友好的四环素降解技术。微生物燃料电池技术(MFC)是一种自产电驱动并富集降解功能菌的系统,故能在共代谢难降解有机物与产电,研究发现MFC对四环素有较好的降解效果。但常规的MFC生物阳极降解四环素具
城市机动化的快速发展,使得停车问题成为了城市交通的通病。城市停车问题不仅仅是由供给不足造成的,很大程度上是由于停车定价政策不合理、不公平导致的。同时,在制定停车定价价格标准时,大中城市普遍实行停车价格管制,这使得停车位资源供需失衡,停车问题难以得到有效解决,甚至影响了城市动态交通系统的运行。此外,网联车的出现,使得不同车流类型的停车需求更加富有弹性变化。因此,科学合理的停车定价,对于引导停车决策,
脂质在生物体中至关重要,但其理化性质多变,且脂质同分异构体具有不同的生理作用。目前脂质分析存在脂质覆盖范围窄和共洗脱严重的问题,脂质同分异构体的分离分析更加困难。本文建立了基于三相萃取(three-phase liquid extraction,3PLE)和分段数据依赖型采集(segment data-dependent acquisition,SDDA)的拟靶脂质组学方法,以及基于微波辅助间氯过
羟基磷灰石(HAp)是骨骼和牙齿的主要无机成分,在骨组织工程中被广泛应用。已有研究证实,小尺寸的纳米HAp能抑制多种肿瘤细胞的增殖,但制备粒径均匀且大小可控的纳米HAp一直是难点。常规方法制备的HAp往往存在粒径大小不可控等问题。模板法因模板剂含有官能团,具有空间限域作用,能实现对材料大小、形貌、结构等的控制,被广泛应用于纳米材料制备。碳点模板法制备HAp是近几年发展起来的新型制备方法。柠檬酸源碳