论文部分内容阅读
AI同传在机器翻译领域中算是一个关注度相当广泛的问题,对于大众来说,人们对其最深的印象就是科大讯飞的技术造假,对于行业内来说,AI同传任务处理上实时性、专业度的要求都极高,容错率也相对更低,在机器翻译领域算是一个难度很大的任务,甚至有人称之为机器翻译的“圣杯”。是圣杯,自然少不了挑战者。除了孜孜不倦的独角兽,微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题。最近百度新推出的即时机器翻译系统,可以说是给出了一些新的解决思路。
是什么为AI同传送上圣杯
AI同传之所以难度能够达到“圣杯级别”,还是来自于语言本身的复杂程度和不同语言之间的巨大差异。给前者举个例子。对于机器翻译,尤其是语音转码文字的部分来说,一个很大的难点就是同音不同字。有的词同音不同字并且意义差距很大,比如南方和男方。遇到同音不同字的问题时,很多同传系统只要认定了第一次识别的语音,很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。后者则主要体现在语序的差異上,中文上说“她送给我的花很美”,英文上却说“The flowers she gave me are beautiful”, 在不听完整个句子之前,是很难给出准确翻译结果的,因为在中文中作为主语的“花”出现在“她送给我”这一定语之后,可英文中主语“The flowers”却出现在句子的开头。所以目前大多数AI同传,要么是等待一个完整的句子说完后,再进行翻译,要么是根据当前识别结果进行翻译,然后随着识别字数的增加,不断修正结果。
高质量翻译与低时延两者不可兼得。可我们应用同传,不就是为了和整场对话同步获得信息吗?想象一下,在重要商务场合中你和合作伙伴谈笑风生,然而合作伙伴说“前门楼子”AI同传却告诉你“胯骨轴子”……总之由于应用场景相对苛刻,AI同传的技术迟迟都没能达到应用条件。
向人类偷师,百度的即时机器
翻译系统学到了什么?这种时候,我们往往还是要师从更加专业的人类。人类译员在进行同传翻译时往往会先做大量的学习准备工作,了解应用领域的专业术语,本质上是对自己的词汇库进行 “收敛”和补充,减少同音近义这种错误的出现,也避免有哪些名词自己过于陌生。建立在这种准备之上,译员在进行翻译时会有一定的预测性,就像“布什总统在莫斯科会见普京”这句话,通过对应用场景的整体理解,译员们会知道布什总统在莫斯科肯定是要会见什么人的,所以可以同步翻译出“President Bush meets Putin……”,这样才可以用更少的延时满足需求。
可即便如此,人工同声传译也并不是完美的。由于信息量巨大,译员只能在保证速度的前提下牺牲一部分质量。据了解,同传译员的译出率仅有60%—-70%左右,即讲话人讲了100个句子,仅有60—70个句子的信息被完整传递给听众。同时由于需要高度集中精神,译员往往每15—20分钟就需要换班休息。所以,我们从人类工作的逻辑中找到了两个关键词——“背景知识”“预测”和“学习”。
从背景知识的层面来讲,人类之所以能够分辨同音近音字,是因为对于语境和背景知识有着充足的了解,把不符合当前词汇库的同音词“剔除”了。所以百度这些选择的解决方案是,提升容错率,忽略语音-文字转码阶段的错误,进而去提升文字翻译阶段的正确率。百度同传的“语音容错”的对抗训练翻译模型,重点就在于有意在训练数据集中加入针对性的噪声数据,这样即使模型接受到错误的语音识别结果时,也能给出正确的译文。什么叫“针对性”的噪声数据呢?就是把成对、成组出现的噪声词一起收录,比如前文提到的南方和男方,再将源语言句子进行替换,把“南方天气很潮湿”替换为“男方天气很潮湿”,而两个句子的结果都设定为“The weather is very humid in the south”,一起用作训练从而提升模型的容错能力。
至于预测,则是这次百度推出机器同传的重点技术STACL“wait-k words”,即等待讲话时后的第k个词开始翻译,通过对讲话者的语言风格数据进行训练,实现预测能力。同时还可以根据不同语种之间的差异性和不同场景的需求程度来调整K值,比如西班牙语和葡萄牙语在语法上非常接近,K值就可以被调整为1或者2,极大地提高及时性。或者当使用者位于非常严肃的政治会议场合,K值就可以被调整为5或者更高,因此来保证严谨性。
在学习方面,正是AI的优势所在。在百度同传系统中,提出了快速融合领域知识策略,建立在百度自身的互联网大数据之上,百度同传系统获得最基础的通用领域翻译模型。而当进入细分领域时,该系统也会像人类一样,针对细分领域进行学习。建立在通用模型的基础上,通过对某一领域数据的增强训练和专用术语的强制解码,尽可能让整体模型和该领域更加契合,从而减少同音字、多义字翻译错误等诸如此类现象,提升整体效率。
AI同传应该避免独行
当然,即便如此,AI同传还是面临着很多问题。尤其是人在口语表述时往往会带有一些习惯性的语气词,AI如果通通记录下来,会严重影响信息接收的效率。就像曾经有人尝试过在法庭使用AI速记,结果发现AI记下了通篇的“嗯、呃、那个”等口语中的常用词,尤其是当出庭人情绪稍有些激动时,AI速记完美地记录下一串语无伦次时的混乱信息。信息量倒是加大了,可信息价值却很低。人类译员在进行翻译时会进行书面语和口语之间的转换,AI能否做到这种信息的汇总和提炼?
同时口语中常常遇到的口音、结巴、地方俚语、表述水平不同等个性化的问题,人类译员通常可以很好地解决,最终呈现出适用于所有人阅读的内容。就拿俚语来讲,这种极具本土文化特征的内容,有时会在两个语种中呈现出完全不同的形态。就像“掌上明珠”和“Apple of the eye”,从字面直译上很难找到关联,可意义上却相互对应。 AI模型能否高效地解决一切问题,不只适用于某一标准或某一种文化下的内容?最重要的,大部分像“wait-k words”这样的预测模型都要提前进行大量的数据训练。不光应用成本高,对于很多缺乏丰富数据的小众语种来说,还是帮不上什么忙。不过相比人类在同声传译整个学习和翻译过程中耗费的巨大精力,AI同传更高效的学习能力和永不疲倦的特点仍然是巨大的优势。所以在未来的一段时间内,AI同传应该依靠自身优势来承担人类译员助手的职责,与人类一同捧起圣杯。
机器思维与人类思维的打通
其实我们能够发现,百度这次提出的机器同传解决方案,给出了一种AI技术应用的有趣逻辑,即把机器思维和人类思维一起融入技术应用。像在提升语音容错率上,就是一种典型的机器思维。如果把解决问题分两步,第一步是语音——文字,第二步是文字——翻译。数学老师一定会告诉你“一步错、步步错”,可在机器思维中却能实现“一步错、结果对”,即使语音识别中错了,机器翻译的结果仍然是正确的。
而在预测方面,就是典型的人类思维了,结合对于事物的整体理解甚至整个世界观,对于缺失的信息进行预测,用我们人类的话说,就是“直觉”。而当机器也逐渐找到利用直觉的方式,它们所能解决的问题才更迈上了一个台阶。有了预测能力,才能在不同语序的语种中自我生成正确的句子。毕竟我们所处的世界不是棋盘也不是电子游戏,缺乏明确的规则,更多时候我们是在信息和规则双双不透明的前提下去解决问题。
其实在今天的AI应用上,最重要的就是人与AI的协作性,不仅仅是日常应用方面的协作,更多的是研发思维上的协作。有时能理解机器思维的差异性,才能真正找到适合机器的问题解决方案,而让机器能够学会人类思维,才能让机器解决问题的方式更加配适现实世界。就像自动驾驶的安全问题一样,有时在交通標识上贴一张小小的贴纸,就能彻底扰乱机器的视觉系统。所以对于自动驾驶来说,更高效和安全的方法并不是像人类一样“看到”交通标识,而是在高精地图上提前标注好交通标识的位置。对人类与机器的感知方式进行互通和融合,帮助我们打开了很多AI产业应用的黄金大门。有趣的是,这两种思维之间的差异和融合,其实和语言之间的翻译还有点接近。语法有再多差异,彼此理解了,总能一起解决问题。
是什么为AI同传送上圣杯
AI同传之所以难度能够达到“圣杯级别”,还是来自于语言本身的复杂程度和不同语言之间的巨大差异。给前者举个例子。对于机器翻译,尤其是语音转码文字的部分来说,一个很大的难点就是同音不同字。有的词同音不同字并且意义差距很大,比如南方和男方。遇到同音不同字的问题时,很多同传系统只要认定了第一次识别的语音,很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。后者则主要体现在语序的差異上,中文上说“她送给我的花很美”,英文上却说“The flowers she gave me are beautiful”, 在不听完整个句子之前,是很难给出准确翻译结果的,因为在中文中作为主语的“花”出现在“她送给我”这一定语之后,可英文中主语“The flowers”却出现在句子的开头。所以目前大多数AI同传,要么是等待一个完整的句子说完后,再进行翻译,要么是根据当前识别结果进行翻译,然后随着识别字数的增加,不断修正结果。
高质量翻译与低时延两者不可兼得。可我们应用同传,不就是为了和整场对话同步获得信息吗?想象一下,在重要商务场合中你和合作伙伴谈笑风生,然而合作伙伴说“前门楼子”AI同传却告诉你“胯骨轴子”……总之由于应用场景相对苛刻,AI同传的技术迟迟都没能达到应用条件。
向人类偷师,百度的即时机器
翻译系统学到了什么?这种时候,我们往往还是要师从更加专业的人类。人类译员在进行同传翻译时往往会先做大量的学习准备工作,了解应用领域的专业术语,本质上是对自己的词汇库进行 “收敛”和补充,减少同音近义这种错误的出现,也避免有哪些名词自己过于陌生。建立在这种准备之上,译员在进行翻译时会有一定的预测性,就像“布什总统在莫斯科会见普京”这句话,通过对应用场景的整体理解,译员们会知道布什总统在莫斯科肯定是要会见什么人的,所以可以同步翻译出“President Bush meets Putin……”,这样才可以用更少的延时满足需求。
可即便如此,人工同声传译也并不是完美的。由于信息量巨大,译员只能在保证速度的前提下牺牲一部分质量。据了解,同传译员的译出率仅有60%—-70%左右,即讲话人讲了100个句子,仅有60—70个句子的信息被完整传递给听众。同时由于需要高度集中精神,译员往往每15—20分钟就需要换班休息。所以,我们从人类工作的逻辑中找到了两个关键词——“背景知识”“预测”和“学习”。
从背景知识的层面来讲,人类之所以能够分辨同音近音字,是因为对于语境和背景知识有着充足的了解,把不符合当前词汇库的同音词“剔除”了。所以百度这些选择的解决方案是,提升容错率,忽略语音-文字转码阶段的错误,进而去提升文字翻译阶段的正确率。百度同传的“语音容错”的对抗训练翻译模型,重点就在于有意在训练数据集中加入针对性的噪声数据,这样即使模型接受到错误的语音识别结果时,也能给出正确的译文。什么叫“针对性”的噪声数据呢?就是把成对、成组出现的噪声词一起收录,比如前文提到的南方和男方,再将源语言句子进行替换,把“南方天气很潮湿”替换为“男方天气很潮湿”,而两个句子的结果都设定为“The weather is very humid in the south”,一起用作训练从而提升模型的容错能力。
至于预测,则是这次百度推出机器同传的重点技术STACL“wait-k words”,即等待讲话时后的第k个词开始翻译,通过对讲话者的语言风格数据进行训练,实现预测能力。同时还可以根据不同语种之间的差异性和不同场景的需求程度来调整K值,比如西班牙语和葡萄牙语在语法上非常接近,K值就可以被调整为1或者2,极大地提高及时性。或者当使用者位于非常严肃的政治会议场合,K值就可以被调整为5或者更高,因此来保证严谨性。
在学习方面,正是AI的优势所在。在百度同传系统中,提出了快速融合领域知识策略,建立在百度自身的互联网大数据之上,百度同传系统获得最基础的通用领域翻译模型。而当进入细分领域时,该系统也会像人类一样,针对细分领域进行学习。建立在通用模型的基础上,通过对某一领域数据的增强训练和专用术语的强制解码,尽可能让整体模型和该领域更加契合,从而减少同音字、多义字翻译错误等诸如此类现象,提升整体效率。
AI同传应该避免独行
当然,即便如此,AI同传还是面临着很多问题。尤其是人在口语表述时往往会带有一些习惯性的语气词,AI如果通通记录下来,会严重影响信息接收的效率。就像曾经有人尝试过在法庭使用AI速记,结果发现AI记下了通篇的“嗯、呃、那个”等口语中的常用词,尤其是当出庭人情绪稍有些激动时,AI速记完美地记录下一串语无伦次时的混乱信息。信息量倒是加大了,可信息价值却很低。人类译员在进行翻译时会进行书面语和口语之间的转换,AI能否做到这种信息的汇总和提炼?
同时口语中常常遇到的口音、结巴、地方俚语、表述水平不同等个性化的问题,人类译员通常可以很好地解决,最终呈现出适用于所有人阅读的内容。就拿俚语来讲,这种极具本土文化特征的内容,有时会在两个语种中呈现出完全不同的形态。就像“掌上明珠”和“Apple of the eye”,从字面直译上很难找到关联,可意义上却相互对应。 AI模型能否高效地解决一切问题,不只适用于某一标准或某一种文化下的内容?最重要的,大部分像“wait-k words”这样的预测模型都要提前进行大量的数据训练。不光应用成本高,对于很多缺乏丰富数据的小众语种来说,还是帮不上什么忙。不过相比人类在同声传译整个学习和翻译过程中耗费的巨大精力,AI同传更高效的学习能力和永不疲倦的特点仍然是巨大的优势。所以在未来的一段时间内,AI同传应该依靠自身优势来承担人类译员助手的职责,与人类一同捧起圣杯。
机器思维与人类思维的打通
其实我们能够发现,百度这次提出的机器同传解决方案,给出了一种AI技术应用的有趣逻辑,即把机器思维和人类思维一起融入技术应用。像在提升语音容错率上,就是一种典型的机器思维。如果把解决问题分两步,第一步是语音——文字,第二步是文字——翻译。数学老师一定会告诉你“一步错、步步错”,可在机器思维中却能实现“一步错、结果对”,即使语音识别中错了,机器翻译的结果仍然是正确的。
而在预测方面,就是典型的人类思维了,结合对于事物的整体理解甚至整个世界观,对于缺失的信息进行预测,用我们人类的话说,就是“直觉”。而当机器也逐渐找到利用直觉的方式,它们所能解决的问题才更迈上了一个台阶。有了预测能力,才能在不同语序的语种中自我生成正确的句子。毕竟我们所处的世界不是棋盘也不是电子游戏,缺乏明确的规则,更多时候我们是在信息和规则双双不透明的前提下去解决问题。
其实在今天的AI应用上,最重要的就是人与AI的协作性,不仅仅是日常应用方面的协作,更多的是研发思维上的协作。有时能理解机器思维的差异性,才能真正找到适合机器的问题解决方案,而让机器能够学会人类思维,才能让机器解决问题的方式更加配适现实世界。就像自动驾驶的安全问题一样,有时在交通標识上贴一张小小的贴纸,就能彻底扰乱机器的视觉系统。所以对于自动驾驶来说,更高效和安全的方法并不是像人类一样“看到”交通标识,而是在高精地图上提前标注好交通标识的位置。对人类与机器的感知方式进行互通和融合,帮助我们打开了很多AI产业应用的黄金大门。有趣的是,这两种思维之间的差异和融合,其实和语言之间的翻译还有点接近。语法有再多差异,彼此理解了,总能一起解决问题。