基于双向上下文语义嵌入转换的自动语音识别模型研究

来源 :福建工程学院 | 被引量 : 0次 | 上传用户:young200909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
端到端模型在构建各种自然语言处理(NLP)模型方面取得了快速发展。多年来,循环神经网络(RNN)一直是构建端到端模型的最佳选择。最近,一种新型的端到端模型Transformer在翻译任务中表现十分出色。Transformer在构建端到端自动语音识别(ASR)系统方面的应用也成为趋势。然而,Transformer ASR系统通常被训练为按从左到右的单向处理,而不考虑其反向的上下文,其双向模型采用两个解码器进行双向解码,在计算和优化方面很复杂,并需要额外的方法(例如自掩码)来解决注意力机制中的信息泄漏问题。针对上述问题,本文研究开发了一种新的语音Transformer应用机制,该语音Transformer利用配备双向上下文嵌入(BCE)的解码器进行双向解码,其主要包括四个主要方法模块,它们是转换器的一般方法、双向上下文嵌入方法(BCE)、语义掩蔽方法和双向波束搜索(BBS)方法。本文的Transformer模型保持了Transformer的一般结构,只是Encoder和Decoder中的位置编码层分别替换为VGG16和1D卷积层。解码器中的另一个关键是添加了BCE。在解码方向输入位置添加了BCE,它使模型能够处理不同的方向上下文信息,而无需额外的解码器,还可以减轻其他信息泄漏问题。此外,本文还采用了一种语义掩蔽方法,以提高模型的准确性,尤其是在有噪声输入的情况下。最后,通过双向波束搜索方法验证了本文方法的有效性,该方法生成双向输出序列并根据输出分数确定最佳结果。我们在Libri Speech的clean/other测试集上实现了7.65%/18.97%的单词识别错误率(WER),比单一从左到右的解码性能超过3.17%/3.47%。整个实验结果也接近或优于其他最先进的端到端模型。在本文研究中,主要目标实现与贡献有:(1)我们探索了不同的选项并实现了一种改进的语音Transformer,该Transformer依赖于配备BCE的单个解码器进行双向解码。与采用两个解码器的方法相比,这显着降低了计算复杂度。(2)端到端训练BCE,每个解码方向都有唯一的句子开始标记,允许具有单个解码器的模型直接生成从右到左的输出,而无需先生成从左到右的输出。这种方法消除了注意力机制中可能存在的信息泄漏。(3)在解码阶段实现了一种生成双向输出序列的BBS方法,并进行了广泛的分析,以显示模型在不同波束大小下的有效性。本文模型取得良好的系统准确率,相关实验主要通过离线语音识别进行测试。目前还未针对在线语音识别进行优化。因此,未来研究将重点探索在线学习等其他在线优化方法,为在线语音识别应用场景提供支撑模型。
其他文献
互联网技术的广泛使用在全球掀起了创新的浪潮,这一技术浪潮对于经济新常态下中国的意义尤其重大。本文使用69个国家1996-2019年的面板数据集,实证分析了互联网发展水平对于国家创新能力的影响效果,并且通过引入制度和环境的交乘项,探讨了环境、政府效率和全球化水平对于互联网影响创新渠道的交互效应。实证结果表明,互联网发展对于提升国家的创新能力具有显著的正向影响,这一影响会随着国家环境效率和政府治理水平
学位
近年来,集装箱海上运输的快速发展给集装箱码头带来了前所未有的压力和挑战。集装箱码头作为海陆运输的中转节点,是集装箱集疏运体系中的重要场所,在经济贸易活动中扮演着重要的角色。在面对日益增长的集装箱运输量以及集装箱码头间激烈的竞争时,集装箱码头运营方对提高集装箱码头的竞争力有着实际而明确的要求。这不仅是码头自身运营的要求,同时也是其所在国家提升经济发展和物流水平的需要。因此,码头运营方必须考虑优化生产
学位
近年来,随着新一轮科技革命和产业革命快速发展,技术创新成为引领中国经济新常态的“第一动力”,新一代信息技术与金融业的加速融合催生了金融科技的蓬勃兴起。与此同时,曾被誉为铁饭碗的银行业以肉眼可见的速度步入寒潮,传统金融机构劳动力面临技术性失业的艰难处境,金融科技给传统金融业就业带来的这种不可逆冲击,影响机制如何?影响结果如何?该如何破局转变?对以上问题的深入考察和探究具有极其重要的实践性和指导性意义
学位
随着我国社会收入不平等现象加剧,收入流动性也出现了持续的下降,“二代”现象逐渐凸显。收入流动性的下降将会造成收入阶层的固化,造成收入差距在代际间的传递,从而使得长期收入差距进一步恶化。在这样的背景下,研究如何提升居民收入流动性,让低收入群体拥有改善自己相对收入的机会,并实现收入地位的向上流动对于缓解居民长期收入差距的扩大具有十分重要的现实意义。本研究以低收入群体的代际收入流动性为研究的切入点,讨论
学位
加快交通基础设施建设,打造现代化综合交通体系,是实施交通强国战略、建设美丽中国、促进社会进步的重要支撑与保障。交通基础设施项目具有建设规模大、建设周期长、投资额大、技术复杂、参与者众多和社会影响大等特点,项目承包商建设过程中面临较高的不确定性风险,加之事前价格补偿不足和事中控制权较低等问题,使其工作缺乏积极性与主动性,导致工程质量不佳与工期延误,亟需建立适合的激励方式,实现业主方与承包商的互利共赢
学位
命名实体识别是知识图谱、机器翻译、智能问答系统等一系列自然语言处理任务的关键性子任务,旨在从非结构化的文本数据中提取出特定的命名实体,而中文命名实体识别仍然面对诸多挑战,因此对于中文命名实体识别的研究具有现实意义。互联网的高速发展带来了网上文本数据指数级的爆发式增长,为基于大数据驱动的深度学习方法奠定了基础,本文主要采用基于深度学习的方法对命名实体识别展开研究,研究工作可以概括如下:(1)当前的命
学位
随着碳中和和碳达峰目标的提出,提高林业智能化水平成为双碳目标的一大支撑。木材的径级和材积测量是林业智能化的重要方向,企业长久以来大量使用的人工检尺方法,效率较低、主观性较强且劳动强度大。随着图像处理技术的发展,木材图像检尺成为可能。但在实际木材货场中,对于密集车载的木材径级测量,受木材端面遮挡、轮廓边界粘连、树芯颜色偏差等因素的影响,木材检测率、轮廓分割精度、检尺效率等陷入瓶颈。此外,现阶段国家林
学位
大数据时代背景下,数据缺失是许多领域都存在的问题。在交通、电力、医学等领域,已有许多专家学者对缺失数据的处理进行了积极的研究,研究中还发现交通领域下的缺失数据复原方法能够扩展应用于其他领域。交通轨迹数据属于交通大数据的一种,为包括智能交通系统、城市交通规划和无人驾驶技术等许多潜在领域提供了不可或缺的数据基础。高质量的轨迹数据必须保证其完整性和有效性。然而,在数据的采集传输过程中,容易受到通信不稳定
学位
交通是城市的“命脉”,是推动智慧城市落地的重要的一环。随着人工智能和车联网技术的蓬勃发展,新型交通运输模式的出现是智慧交通发展的一种必然趋势。以“互联网+传统出租车或私家车”为运营模式的网约车在城市公共交通系统中扮演着越来越重要的角色。然而,随着网约车资源和乘客需求的快速增长,两者之间的供需矛盾也日益突出。准确的网约车出行时空需求预测有助于平衡网约车供给与乘车需求,为网约车平台合理预分配运力资源提
学位
城市作为社会经济活动的主要场所,交通路网是复杂城市系统的基本保障。近年来,国内外各大城市的机动车保有量快速增加,导致交通拥堵问题日益严峻,城市交通的出行服务质量严重下降。精确和高效的交通流预测可以有效缓减交通拥堵,有助于城市交通的管理和规划。交通流具有时间特性、空间特性以及非时空因素特性,而交通流预测模型旨在挖掘潜在的交通流模式。因此,如何分析实际的交通流数据,利用数据的时间空间等特征,完成不同时
学位