论文部分内容阅读
随着经济全球化与互联网技术的飞速发展,跨语言的沟通以及信息传递成为学术前沿研究、企业持续发展的必要基础。因此,如何协助单语种用户实现低成本、快速、高质量的跨语言无障碍交流成为了语音翻译的研究目标。语音翻译通常由语音识别、面向口语的机器翻译、语音合成三步串联而成。其中,面向口语的机器翻译是语音翻译的重难点,也是近年来语音翻译领域的研究热点。在实际的语音翻译系统中,语音识别之后的句子并没有标点符号进行断句和停顿,表达方式含较多省略、重复、甚至含混不清的语言现象,导致语音翻译中出现较多非规范句子,以及句子中存在的未登录词造成的翻译歧义性,都是当前语音翻译中面临的困难。因此,翻译模型对语音识别输出语句的容错能力、理解能力及自适应能力,对语音翻译系统的性能有着决定性作用。 本文以提高机器翻译质量为核心,旨在通过解决面向语音的机器翻译中的关键问题来提升语音翻译的整体性能,将从未登录词翻译、语音识别后文本的标点恢复以及不流畅检测等方面展开研究。具体研究内容如下: 1.提出了一种类别敏感的复制神经网络机器翻译模型。在机器翻译中,未登录词一直是一个难以处理的问题,而命名实体的翻译尤为困难。本文针对机器翻译中的命名实体问题,设计和规整了常用的命名实体类别,并收集整理了命名实体语料。为了提高模型对未登录词的翻译能力,本文借鉴了复制神经网络的思想,对源语言端出现的未登录词直接进行复制。为了更好地判断网络中需要复制的词语,本文将实体类别信息引入模型。该方法将输入文本中的(实体)语义标签有效地融合到解码端,通过解码端的类别门控单元输出的概率来调节最后目标词的输出概率,在一定程度上缓解了由于词表受限带来的未登录词无法被有效训练的问题。本文在相关任务的数据集上进行了充分的实验,结果表明所提方法能够有效缓解未登录词问题。 2.提出了一种基于混合注意力机制的字符级别机器翻译模型。为了解决机器翻译中的未登录词问题,该模型以字符级别的文本序列作为输入,采用双向门控循环单元网络对其进行语义编码,并通过模型内嵌的自适应分词器获取词级别的语义向量,然后将字级别的编码向量和词级别的编码向量融合成一个字词混合的上下文向量,从而增强了模型的语义表达能力,最后基于该字词混合的注意力进行解码。由于不需要第三方分词器进行预处理,该模型实现了真正意义上的端到端翻译。NIST中英翻译任务上的实验结果表明,本文提出的字词混合模型能有效解决机器翻译中的未登录词问题,并提升翻译性能。 3.提出了一种基于多目标自注意力机制的标点恢复模型。传统的序列标注模型并不能很好地处理连续标点问题,本文将标点恢复任务转化成机器翻译任务,提出了一种生成式的多目标自注意力模型对其建模。与传统的自注意力模型相比,该模型最大的不同在于引入了多目标学习策略,同时学习标签信息和文本信息,并在解码过程中采用限制性解码算法,一方面将目标端的输出单词约束在源语言中,确保了目标端与源语言端的文本序列的一致性,另一方面利用标签分类器进行输出决策,可以方便地根据上下文语义信息输出连续标点,从而解决了连续标点恢复问题。该方法不仅在IWSLT数据集的单标点恢复任务中取得了最优结果,而且本文还验证了该方法在连续标点恢复任务中的优越性。此外,本文将标点恢复模型应用于实验室自建的机器翻译系统,发现性能得到明显提升,进一步说明该方法的实用性。 4.提出了一种半监督的不流畅检测模型。本文将不流畅检测任务转化为翻译任务。首次引入基于自注意力机制的编解码网络对其建模,并提出一种多目标学习方法和受限解码算法,同时融合了字符序列和标签序列的信息。实验结果显示,本文提出的模型在Switchboard数据集上取得了最优结果。此外,为了充分利用大量现存的未经人工标注的规范化文本数据(如新闻语料),本文引入权重共享策略和对抗网络训练机制将多目标自注意力模型扩展成半监督模型,Switchboard公开数据集上的实验结果表明,该模型能进一步显著提升性能。