基于门控循环单元和自注意力机制的端到端语音识别研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:hesion001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算能力的提升和大数据语料的不断积累,语音识别技术飞速发展,准确率大幅提高,应用的场景也越来越广。语音识别作为连接人类与智能硬件设备的桥梁,变得越来越受关注。本文针对传统语音识别模型训练时需要将语料信息和标签强制对齐的弊端,提出了结合自注意力机制语言模型的端到端语音识别方法,将链接时序分类的端到端框架应用于语音识别任务中,同时采用自注意力机制作为语言模型,强化系统的翻译能力,使得系统可以更全面的学习信号的特征,进而更好地完成中文语音识别任务。另外,针对应用于语音识别的长短时记忆(Long Short-Term Memory,LSTM)网络存在的计算复杂度高、训练时间长的问题,本文采用门控循环单元(Gate Recurrent Unit,GRU)网络代替LSTM,减小了计算开销,加快训练速度。根据对照实验,在相同的实验条件下,GRU网络的平均训练时间相对LSTM网络减少了17.59%。本文以结合高斯混合和隐马尔可夫的模型为基线实验,验证基于LSTM和GRU两种神经网络的端到端模型在准确率方面更加优越的性能。为了提高基线实验的准确率,在特征提取方面采用瓶颈特征代替梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征。通过实验证明瓶颈特征具有更强的区分性,可以提高系统鲁棒性和识别效果。
其他文献
将预制剪力墙拼装形成的水平缝采用“湿式设计”,将其等同于现浇剪力墙,使结构在垂直方向的承载力更好地传递和抵抗水平剪力,竖向缝使用金属或摩擦阻尼器相连形成“半干式结
恐惧习得对人类和动物的生存极为重要,可以帮助个体迅速觉察环境中的危险并做出防御反应。习得的恐惧可基于刺激间的相似性进行泛化。这里的相似性一方面是指物理的相似性,如蛇与绳子;另一方面,由于人类拥有概念、分类、归纳推理等知识经验,可通过高级的认知过程将多种刺激归为相似。如发生交通事故后,人们不仅会害怕车辆、道路,还会对红绿灯、车钥匙等与驾驶相关的一系列事物产生恐惧。当前恐惧泛化的研究主要分为两大类,一
由于全球环境污染问题的日益加剧以及煤、石油等化石燃料的供应不足,可再生能源发电越来越受到各国的重视,光伏发电具有清洁、无污染、可再生等特点,具有广阔的应用前景。光伏电池作为光伏发电站的主体,光伏电池输出特性建模与参数求解研究,对于确定光伏电池在不同工作条件下的输出功率,合理安排光伏电池的排列方式,进行最大功率追踪等具有重要意义。因此,本文选取光伏电池输出特性建模与参数求解作为主要研究内容。本文介绍
研究目的:来源于人体各个部位的肿瘤一直困扰着医学界的研究者们,至今癌症依然是威胁人类生命健康的巨大挑战。外科手术是治疗肿瘤的主要手段,但是由于肿瘤的异质性及浸润性
近年来,城市工业废弃物日益增多造成环境的严重污染问题,天然砂石短缺造成建筑材料价格持续上涨问题成为社会和学术界热议的话题。随着城市化进程的不断加快,地铁建设如雨后
智能电网和新能源技术的发展,推动了柔性负荷的应用,也使得负荷侧的构成及不确定性更加复杂,同时电网数据在进入大数据时代后呈爆发式增长,给电力系统的安全稳定评估带来挑战。可用输电能力(available transfer capability,ATC)是电力系统调度和电力市场交易的重要参考,经典ATC计算方法难以满足电力系统ATC在线评估的要求,数据挖掘方法为该问题提供了新的思路。本文对计及负荷侧不确
近年来,超高层建筑作为地标性建筑如雨后春笋般出现在我国诸多城市,该类建筑结构具有高、柔且对风荷载十分敏感等特点,在结构设计时风荷载常作为控制荷载。为得到合理的风荷
本文主要内容是含吡咯基配体的第四副族金属有机化合物的合成、结构和催化性能以及Ti(NMe2)4在构造C-N键、活化C=O键反应中的应用,主要有以下四个方面的研究内容:一、合成了
自驱动合成微/纳米马达(MNMs)是一种介于纳米和微米尺度的致动器,能够通过收集不同类型的能量,并将其转化为机械运动。其中,对气泡驱动推进MNMs的研究最为广泛。铂(Pt)由于其
研究背景:近年来,血脂异常、糖尿病发病率和患病率均呈逐年上升趋势,两者作为心脑血管疾病发病、死亡的主要危险因素,如何对其进行人群预防和控制已成为当前重要公共卫生课题。现实生活中,血脂异常和糖尿病常合并存在,血脂指标和胰岛抵抗间因果关系也往往存在争议。随着年龄增长,雌性激素对女性的保护作用逐渐消失,女性患血脂异常和糖尿病的风险迅速升高。围绝经期作为女性绝经前的过渡时期,同时也是疾病预防干预的窗口期。