基于Transformer Transducer的端到端实时语音翻译的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:drcqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时语音翻译技术作为翻译技术的分支之一,具有非常丰富的应用前景,例如外语视频的字幕生成,国际会议同传翻译等等。然而,不同于相对比较成熟的机器翻译技术,实时语音翻译技术目前面临着巨大的挑战。由语音识别模型,机器翻译模型所构成的传统级联模型,在模型处理延迟、错误传导等问题上具有天然上的劣势。虽然目前端到端实时语音翻译模型可以规避这些问题,但是语音和文本作为两种不同模态的信息,端到端模型处理起来并不容易。同时,之前的研究表明Transducer端到端模型在语音识别任务上不仅能够实现非常低的错字率,并且具有非常低的流式输入输出延迟损耗。因此,本文将围绕Transformer Transducer模型在语音翻译任务上的应用展开研究,本文的主要工作以及创新点有:首先,本文根据语音翻译任务中音频序列与翻译序列对齐时语序不同的问题设计了新的Transformer Transducer模型,并提出了两种不同的Mask结构。本文在转录网络模块中使用了Conv-Transformer神经网络结构提取音频序列特征,在预测网络模块中使用了单向的自注意力Transformer神经网络对翻译序列进行建模,在共融网络模块中使用了交叉注意力Transformer神经网络对音频特征和文本特征进行交互建模。在模型推导阶段,本文设计了相应的两种分别适用于低延迟需求和高准确率需求场景下的流式解码方法。其次,本文围绕Transformer Transducer端到端实时语音翻译模型做了大量不同优化方法的消融实验。一、本文研究了预训练方法对于模型的影响,通过设计预训练语音识别模型、预训练语言模型两种不同的模型对Transformer Transducer模型进行参数初始化,研究该方法的有效性;二、本文研究了额外损失函数的影响,实验了离线语音翻译的损失函数、序列级Transducer损失函数正则化、翻译延迟损失函数对于Transformer Transducer模型的优化效果;三、本文研究了知识蒸馏方法对于模型的影响,实现了序列级知识蒸馏方法并通过实验分析了其对Transformer Transducer模型的优化效果。另外,本文还对比了Transformer Transducer模型与目前主流的端到端实时语音翻译模型的效果,并在MUST-C公开数据集上取得了非常好的成绩,特别是在低延迟区间内比目前主流模型提高了8-10左右的BLEU值。
其他文献
学位
核电是一种绿色、清洁、经济、高效的能源。面对“双碳”目标,积极发展核能已经成为我国能源发展战略需长期坚持的重要组成部分。然而,在对乏燃料进行后处理以回收关键元素的同时,由于采取的是酸法溶解,不可避免产生大量放射性废气。放射性气态碘就为其中之一,具有极强的迁移和放射毒性,必须对其进行过滤净化处理。近年来,铋基功能材料以其碘吸附容量高、生产成本低等优势,获得广泛关注。但目前关于此类材料体系的研究种类较
建筑房屋安全是建筑工程行业至关重要的因素,也是政府以及人民群众十分关注的话题。由于我国的历史等一系列原因,导致我国的既有建筑中存在大量的安全隐患,同时也爆出大量由于房屋安全事故造成的人员和财产的损失。目前对于危险房屋的管控只要由政府主管部门委托检测机构人工检测,并根据检测结果进行处置和管理,但是传统的检测方式和管理模式都存在一定的缺陷和不足。本文从危险房屋的现状出发,通过文献和资料查询,了解国内外
为了解决气候恶化和能源紧缺的问题,推广和普及电动汽车势在必行。电动汽车可以通过能源多样化来提高能源安全;通过创造新的先进产业来促进经济增长;最重要的是,通过减少尾气排放来保护环境。电机控制技术作为电动汽车的一个核心技术,一直以来备受关注。其中电制动技术是电机控制技术的一个重要分支,由于其应用广泛,受到了越来越多的关注。电制动技术不但可以应用在再生制动工况中,还可以应用在驻车和自动泊车等工况中。这些
自动驾驶车辆作为预期可以改善道路交通安全的新型出行方式,随着社会资本的涌入与政策的支持,相关技术和产业在近些年得到了长足的发展,自动驾驶车辆的开放道路测试、示范运行和产业化应用的规模不断扩大。与此同时,在高阶自动驾驶车辆的测试评价标准体系建设方面,国内外仍处于初期研究阶段,如何科学有效地确认其可以实现安全、可靠、稳定地示范运行,已经成为了该行业在当前发展阶段亟需解决的重大课题。本文针对上述现状,以
学位
目前,我国医院建设项目存在信息汇总速度慢、信息利用率低、信息数据存储不方便、信息共享程度低、信息管理的精确性较差等问题,严重影响医院项目建设的开展进度,制约了管理项目的效率。随着建筑信息建模技术(以下简称BIM技术)在我国的发展和应用,将BIM技术引入医院建设项目的信息管理,有助于推进解决医院建设项目管理过程中的各种问题,更有利于BIM技术在医疗建筑领域的推广与发展。本文以医院建设项目的信息管理作
供电所作为电网公司的基层供电单位,是直接面向广大用电客户提供电能的前沿阵地,其供电能力和服务水平直接影响着政府及用户对公司的整体评价。自2018年国家电网有限公司“全能型”供电所建设以来,供电所各项工作稳步推进,但部分供电所结构性缺员突出、人员技能水平参差、指标落后等相关问题也逐步显现,亟须优化与解决。本文以“全能型”供电所深化建设为背景,以供电所网格化管理为研究对象。首先,对网格划分进行研究,根
校本研修是教师专业成长的重要平台。杭州市临平区临平第二中学在更名迁校与集团化办学背景下,积极探索以专家领琢、个人慧琢、同行互琢、集体研琢、制度促琢与科室辅琢为内容的“六琢”研修机制,开展各类教科研活动,促进教师专业成长,形成教学研共同体,培育学校教科特色,促进提质强校战略的实施。
“保险+期货”服务农业种植作为新型农业合作模式已成为我国农业市场化改革的重要探索实践。但新型农业合作项目在运行中受到农产品价格不确定、农产品产量不确定、农产品保险补贴收益不确定、项目管理导致收益不确定、竞争者参与导致成本不确定等较多不确定性因素影响,该类项目利用传统净现值进行投资决策存在没有考虑不确定性价值、不关注长期战略投资配置、没有考量投资者选择权的需求等不足。因此,科学的投资决策方法有其重要