基于注意力机制的语音识别算法

来源 :东北大学 | 被引量 : 0次 | 上传用户:aoyun2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是模式识别和应用数学的交叉热点课题,端到端的语音识别系统在连续语音识别领域越来越受关注。如何构建更有效的序列到序列直接转换的模型,成为语音识别研究的前沿问题。目前,端到端的实现主要基于连接时间分类CTC(Connectionist Temporal Classification)的方法或者基于注意力机制(Attention Mechanism)。本文主要针对其中基于注意力机制的编码-解码模型进行研究,主要完成了以下工作:(1)提出了一种基于混合注意力机制的编码-解码模型。现阶段广泛应用于语音识别领域的是基于内容(Content-based)的注意力机制(Attention Mechanism)编码-解码模型。该模型框架在输出字符序列时,有选择地从编码序列中获取信息,并依赖于之前已经输出的字符信息,解决了基于CTC模型语义信息获取缺失的问题。但它对位置信息考虑不充分,导致对齐精准度不够。为了解决这个问题,本文提出了一种注意力模型,通过在基于内容的注意力模型中加入位置信息,帮助模型实现更精准的对齐。相较于基于内容的注意力模型,该模型在中文连续语音数据集THCHS30上音素错误率从6.35%降低至5.93%,字错误率从8.45%降低至8.04%;在英文连续语音数据集TIMIT上音素错误率从13.43%降低至12.52%,字错误率从14.16%降低至13.15%。(2)为了缓解循环神经网络RNN(Recurrent Neural Network)在处理序列任务时存在的梯度消失的问题,本文采用长短时记忆网络LSTM(Long-short Term Memory)编码特征序列。同时,针对长输入序列造成的模型计算复杂度增加的问题,本文提出引入下采样层,来降低模型复杂度,提高训练速度。实验结果显示,引入下采样层的模型复杂度降低了近24%。(3)针对基于注意力机制的模型在含噪语音识别任务中表现不佳的问题,本文提出了一种混合注意力和CTC联合训练的方法。在混合注意力编码-解码模型的基础上,用CTC辅助训练。实验结果表明,在中文含噪语音识别任务中,通过加入CTC的辅助训练,音素错误率降低了 9.04%,字错误率降低了 7.62%。
其他文献
由于地表水资源稀缺,地下水是塔里木盆地南缘绿洲带重要用水水源,系统查明该区地下水砷氟碘的分布及成因至关重要。基于塔里木盆地南缘绿洲带233组地下水水样检测结果,分析不同含水层中高砷、高氟和高碘地下水的空间分布及水化学特征,结合研究区地质、水文地质条件和地下水赋存环境进一步揭示影响地下水砷氟碘的来源、迁移与富集的水文地球化学过程。结果表明:地下水砷、氟、碘含量变化范围分别为<1.0~91.2 μg/
群智能优化算法被看成优化技巧的一种方法,仍然在很多领域被普遍地采用。譬如数字图像处理领域,在图像处理环节中“分割”被视为不可缺少的一个流程,分割作为基础环节,其目标是突显出目标区域、简易化图像及降低图像分析复杂度,是识别及分类图像工作中基础性工作。阈值法因容易掌握、高效、稳定性强及操作简便的优势,已成为最广泛使用的分割方式之一。采用阈值分割图像时,阈值计算任务量大,实时性很难达到,因此大量学者在图
受凝冻天气等的影响,输电线路覆冰严重,给社会稳定和国民经济造成了巨大危害。由于移相变压器(Phase Shifting Transformer,PST)的潮流调控作用,PST被用于线路融冰。然而,PST的接入会改变线路电压信号、电流信号、阻抗分布并增加线路元件,而这些电气量和一次元件是继电保护配置和整定的重要依据。为了保证含融冰PST系统的安全可靠运行,本文将开展PST的接入对继电保护的影响研究。
随着社会经济的发展和国民生活质量的提高,人们对于男性生殖与性健康的认识和需求正在发生着转变,而现代大众传媒的宣传引导,泌尿生殖与性健康科学知识的普及,正在逐步唤醒男性对于外生殖器大小的潜在关注,尤其是近年来泌尿男科学和整形外科学的快速发展,可改善阴茎外形、满足伴侣双方生理及心理需要的阴茎整形技术不断完善,阴茎增粗术(Penile
随着工业机械化的快速发展,使用机械化进行大规模作业成为现代发展的时代需求。我国地域广阔,耕地面积分布不均匀,因此需使用大型农用机械化设备代替人工作业。不同地区环境差异比较大,水稻联合收割机也需要根据当地的地理环境进行差异化设计。为了得到性能优异的水稻联合收割机,并且可随着地理环境的特点进行专门的设计,因此需构建出水稻联合收割机参数化系统。水稻联合收割机作为一款应用范围极广的农用机械装备,它的使用场
氮掺杂的有序介孔碳由于具有高的比表面积和孔容、均匀且可调节的孔径、良好的电导率和稳定性以及易于修饰的介观表面等优点,使其在催化、储能、生物医学和电化学等领域有巨大的应用前景。壳寡糖(Chitosan oligosaccharide,COS,分子量≤3200Da)因其来源广泛、含碳氮量高,可作为一种制备原位氮掺杂介孔碳的优选碳氮源前驱体材料。但是,壳寡糖分子量较大,采用硬模板制备介孔碳时,由于其大的
犬的皮肤病是以犬的皮肤系统出现病理性的问题为特征,严重时会导致宠物渐进性出现其他问题。部分犬的皮肤病致病菌也会感染人类,其中犬真菌性皮肤病和寄生虫性皮肤病是最常见的人畜共患皮肤病。尤其以犬真菌性皮肤病更为广泛。故研究长沙地区的犬真菌性皮肤病有助于为临床兽医师提供快速又准确的诊断治疗思路,缩短宠物治疗时间,更有助于减轻和控制长沙地区关于人畜共患皮肤病的公共卫生安全问题。为做好长沙地区犬皮肤病的流行病
本文研究了绿竹实生苗叶片中的生长状况、组织含水量、渗透调节物质含量变化和保护酶活性变化。通过测定绿竹实生苗在NaCl胁迫下生长状况与生理生化指标的变化,分析了K+对绿竹实生苗NaCl胁迫引起损害的解除效果及干旱处理对K+解除NaCl胁迫损害效果的影响;通过调研获得沿海滩涂等地区耐盐竹种资源,应用DNA条形码技术对包含32个耐盐竹种的98个竹种开展竹子属间、种间及耐盐竹种的聚类分析。本文获得如下研究
随着化石能源过度使用,以风电、光伏为代表的清洁高效可再生能源作为能源危机的有效应对途径,在电力系统中得以广泛应用。然而风速、光照强度受环境影响具有间歇性、波动性、随机性,从而不可避免地导致风光输出功率出现预测误差与不确定性。因此在大力发展可再生能源的背景下,系统内不确定性总量也随着风光渗透率的提高而不断变大。而微电网作为融合可再生能源与大电网的重要形式,大量的不确定性将对微电网的经济可靠运行带来巨
胜任力模型作为一种科学客观地人才评估手段,其研究与应用一直是人力资源研究领域的研究热点。同时,随着机器学习方法的兴起,作为目前人工智能领域最受期待的技术手段之一,研究适用于胜任力评估与判定的机器学习方法为人才评估与管理提供了一种新的智能化的解决途径,有助于有效地应用胜任力的评估与判定,以提升人力资源管理的效率与质量,从本质上帮助企业获得竞争优势。本文深入探究了人才评估与管理领域的胜任力、胜任力特征