基于语义单调约束语音-文本软对齐的端到端语音识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:theone2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是人工智能领域的重要研究方向之一,它能将语音信号转化为对应的文本序列。目前关于语音识别的研究主要集中在基于深度学习的端到端技术上。深度学习模型通常需要等长的输入输出单元,但由于单个文本单元往往对应着连续多个语音帧,导致它们的序列长度不一致,因此,学习语音和文本序列间的对齐关系是端到端语音识别需要解决的关键问题之一。根据是否需要学习帧级的对齐关系,端到端语音识别技术可分为混合对齐型和软对齐型两类。前者先生成帧级对齐关系,然后通过聚合所有可能的帧级关系来生成序列级对齐关系。这类方法会不可避免地存在不合理的帧级对齐关系。为此,后者不进行帧级对齐,而是基于文本单元应与连续且少量帧构成的语音片段一一对应的事实,直接学习两者间的序列级对齐关系。基于注意力机制的编解码模型是应用最为广泛的软对齐方法,其从左向右逐个生成文本单元,由于文本单元与其对应的语音片段具有相同的出现顺序,因此多个解码时刻的关注片段位置具有从左向右的连续单调性。然而,先前的方法大都没有考虑上述稀疏及单调的结构化特性,并且在学习过程中缺乏对每一时刻注意力机制所关注片段对应语义内容的独立控制与优化,导致所关注的片段会盲目变化。尽管近年来有部分研究开始尝试利用历史关注位置信息,来限制每一时刻关注语音片段的挑选过程,但仍无法约束其位置单调变化,以及仅包含与文本单元相一致的语义信息。因此,迫切需要研究对关注语音片段的结构和语义进行约束,以解决其盲目变化的有效方法。本文将从语音-文本对齐时的单调连续性约束和语义一致性约束两个方面展开研究,主要内容及创新工作如下:(1)在单调连续性约束方面,针对历史注意力得分不稳定所导致难以获取准确的历史关注位置信息的问题,通过将语音序列沿时间维度映射到低维线性子空间中,来提取包含完整时序和内容信息的概要嵌入。接着,将该嵌入与包含历史识别单元信息的解码器状态相结合,来生成全局位置约束向量,并用其来约束模型在历史关注位置附近选取语音片段,以避免错误历史关注位置信息所带来的影响。进而提出基于全局连续性约束软对齐的端到端语音识别方法。实验结果表明,所提出的方法可以有效提升识别性能;(2)在基于全局连续性约束软对齐的端到端语音识别方法的基础上,针对模型关注内容语义上不够明确,以及可以被重复关注的问题,借助组稀疏约束来使模型仅关注连续且少量的帧。同时,为避免重复关注相同片段,通过限制片段累计接收注意力得分的上界来约束模型均匀关注所有的语音片段。进而提出基于全局单调连续性约束软对齐的端到端语音识别方法。实验结果表明,所提出的方法可以使模型的注意力得分更加集中,从而进一步提升识别性能;(3)在语义一致性约束方面,针对传统训练方法无法确保所关注语音片段中,仅包含与输出单元相一致的语义信息的问题,考虑到互信息能有效衡量随机变量间的相关性,因此,通过增大关注语音片段与候选识别单元间的互信息来增大其对应语义信息的一致性。首先利用神经网络模型来预测瞥表示与解码器状态间的互信息下界,然后利用语义一致性约束优化目标来提升该下界,以增大二者间的一致性。进而提出基于语义一致性约束软对齐的端到端语音识别方法。实验结果表明,所提出的方法可以有效减少模型对识别无关语音片段的关注,从而提升识别性能;(4)在基于语义一致性约束软对齐的端到端语音识别方法的基础上,针对一致性约束与识别优化目标的优化速度与方向,在训练时可能存在冲突的问题,通过动态调整不同优化目标相对于共享参数的梯度,来避免上述冲突,以获得多个目标共同的最优解。首先通过对该梯度进行模长归一化来平衡两个目标的优化速度,然后在前一优化目标的归一化梯度附近,寻找与后一目标所对应梯度正相关的方向作为平衡梯度方向。接着,利用前一个归一化梯度在该方向的投影来更新模型参数。进而提出基于语义平衡一致性约束软对齐的端到端语音识别方法。实验结果表明,所提出的方法可以有效平衡一致性约束与识别优化目标的优化速度与方向,从而进一步提升语音识别系统的性能。
其他文献
进入21世纪以来,全球经济的高速增长给能源的供给带来了巨大的压力,化石能源的日渐枯竭逐渐成为限制经济持续发展的关键因素。获得对能源更多的控制权,对提升我国的国际地位,保证经济持续发展有举足轻重的作用。可再生能源的开发利用给能源的供给带来了曙光,其中生物质能由于其来源广泛,获取便捷,逐渐在可再生能源利用中占据了重要地位。微波加热技术的引入,为生物质能的高效转化利用提供了一种全新的思路。本文以稻壳这一
学位
心肌片层是心室壁内心肌细胞的主要组织结构,同时也是实现心室功能的基本工作单元。心肌片层及其内部心肌细胞的三维空间排布规律与心脏的收缩舒张、心电传导、组织重构、生理病理等存在紧密联系,加强心肌片层结构研究可为心血管疾病的诊断、治疗提供理论依据和数据支持。但是,由于当前心肌组织的主要成像方式(如光学显微成像、电镜扫描成像、磁共振弥散张量成像、偏振光成像等)均无法提供超高分辨率心肌组织三维成像数据,心肌
学位
我国是一个煤炭生产和消费的大国。我国政府要求进一步提升煤电高效清洁发展水平,重点提出燃煤电厂应采用更加先进的燃烧技术。W火焰燃烧是燃煤电站机组锅炉的三种燃烧方式之一,它是专为燃用无烟煤、贫煤等难燃煤种而设计的。近年来,随着煤炭市场供应变化,W火焰锅炉开始掺烧或全烧烟煤。现有旋流W火焰锅炉掺烧或全烧烟煤后出现了燃烧器喷口烧损、水冷壁结渣以及脱硝入口烟温超温等问题,影响了锅炉安全、稳定运行。因此,为解
学位
中、高空长航时无人机滞空时间长,在对地观测等方面具有重要民用和军事价值,是各国争相发展的热点。低耗油率推进系统是研制超长航时无人机的关键。传统航空发动机热效率受到卡诺热效率限制,难以大幅度提高。通过有机结合高效率燃料电池与高功率密度燃气涡轮各自优势,本文提出了新型燃料电池航空混合推进系统,创新地采用燃料电池发电为压气机等部件供能,燃烧室尾气直接进入喷管做功。与燃气涡轮发动机相比较,混合推进系统不存
学位
激光光栅干涉测量技术是一种融合了激光干涉和光栅干涉原理的多自由度测量技术,既有光栅干涉测量的精度高、热惯性高的优势,又有空间光路短、对空气折射率不敏感的优点,能够有效避免空气环境下激光干涉测量精度受气流扰动的影响。因此,利用多个线位移激光光栅干涉测头实现的全干涉式位置姿态同步测量是超精密六自由度测量的一种优势方案,已应用于荷兰ASML公司研发生产的NXT系列深紫外浸没式光刻机中,是38 nm至7
学位
服务机器人和特种机器人需要在非结构化的山地、森林和城市家庭等环境中进行行走奔跑,代替或协作人类完成移动抓取、敲击加工等物理交互工作。这要求机器人必须具有优异的柔顺特性来保证人类、环境、物品和自身的安全,同时当具有较大的负载能力和准确的力控精度以便能够完成更多的工作和提供更有效的服务。磁流变液关节通过在传统机器人关节输出端串联一磁流变液离合器赋予了机器人关节优异的柔顺特性,同时具备了大负载和力控精度
学位
在传动系统中,扭矩是评价传动部件动力性能的一个关键性指标,通过对各旋转部件的扭矩进行测量,有助于对整个动力机械传动系统的传动效能进行科学评价。作为常用的扭矩测量工具,扭矩传感器广泛应用于电动机、发电机、内燃机等旋转动力设备输出扭矩及功率的检测,以及生产监控和质量控制等许多方面。为了保证扭矩测量的准确性和可靠性,需要定期对扭矩传感器进行校准。目前,绝对式扭矩校准多为实验室静态校准,主要采用悬臂梁加砝
学位
工业锅炉作为重要的供热供气设备,广泛应用于生产生活的多个领域。我国工业锅炉保有量约36.4万台,燃煤工业锅炉是其中的主导产品。由此可见,由燃煤工业锅炉生产运行而产生的环境污染问题不容忽视。中国已建成的工业煤粉锅炉在实际运行过程中大多存在以下问题:NOx原始排放量高、结渣严重、飞灰含碳量高等问题。因此,有必要开发出适用于工业煤粉锅炉的污染物排放量低、防结渣、稳燃性能好、燃烧效率高的燃烧技术。本文在电
学位
生物质资源因其储量丰富、可再生、碳中性、全球分布广泛和硫氮含量低等优点,被视为传统化石能源的理想替代品。作为传统农业大国,我国农林废弃物资源丰富,具有巨大应用潜力。生物质液化具有能量效率高、反应条件温和等优势,且无需对含湿原材料进行高能耗的预干燥过程,被认为是目前最具前途的可再生能源及高值化学品制备技术之一。然而,生物质液化油产物通常具有产率低、含氧量高、能量密度低、高黏度和腐蚀性等缺陷,难以直接
学位
高孔隙率开孔泡沫材料,具有独特的多尺度孔隙和空间网络结构特征,是一种新型的气体换热强化技术手段,已成功应用于电子设备散热等领域。由耐高温材料制造的高孔隙率开孔泡沫材料,在太阳能高温转换、高温气体余热回收、气体燃烧、飞行器热防护等技术领域也展现出广阔的应用前景。但由于对高孔隙泡沫材料内高温传热机理和特性的认识不清、缺乏可靠的热性能设计依据,导致高温泡沫材料的开发和应用受到极大限制。在涉及高温的工程技
学位