论文部分内容阅读
乔希注视着窗外的群山,望得出神了,手边的茶慢慢凉了下来。群山近在咫尺,威严而壮丽。他手中捧着他最爱的小说,书里曾无数次地描述过这美景。咖啡馆里熙熙攘攘,人们畅快地谈论着天南海北的奇闻异事。乔希独自坐着,但他并不孤单。当他的目光回到身前的时候,他发现自己的面前坐着一个人,用他听不懂的语言,对他讲话。乔希戴上了一对小耳机。耳机把那陌生的语言转换成了他熟悉的语言,乔希捕捉到了最后一句话:“……我最喜欢的小说。”
“这本吗?”乔希举起了手中的书,问道。
“对呀。”
“这也是我的最爱,”乔希说,“这是译文版,不过,这本小说我至少读过12遍了。”
乔希的新朋友笑道:“是哪个版本的译文?谷歌版的还是亚马逊版的?”
科技乐观主义者认为,总有一天,人类能够借助翻译器,去阅读任何书籍,无论这本书的原语言多么晦涩难懂。一直以来这都是人工智能工程师的奋斗目标之一。翻译工作是电脑不能用数字技术解决的最古老的难题之一。1954年,乔治敦大学和IBM公司共同推出了第一款翻译器。这款翻译器能够把俄语翻译成英语,可以应对十分复杂的句子。它总共能够识别60个句子,遵循6种语法规则,内部储存了250个词汇。设计者对公众表示,机器翻译的技术难题,将在未来3到5年得以解决。
有无数人在这个领域进行着不懈的探索,2001年,谷歌重新投身于这个领域,并且很快就超过了其他竞争者。一开始,谷歌只能做6种语言之间的翻译(英语、葡萄牙语、德语、意大利语、西班牙语和法语),它不断改进自己的算法、翻译质量和翻译速度。到2005年,谷歌的翻译器已经能够支持8种语言了。它在一场翻译比赛中,用1000台电脑,在40个小时之内翻译1000个句子。而今,2016年,谷歌网站能够在几秒钟内,完成对103种语言的翻译。每个月,都有超过5亿人次使用翻译器。其中超过92%的用户不在美国。让机器翻译能够与具体的语境相结合,是所有程序员共同努力的方向,有的人甚至声称,机器翻译已经解决了这个问题。
上周,纽约市韦弗利实验室发布了他们的最新成果派乐(pilot)。这是一副售价299美元的耳机,预计在2017年发售。这项设备预计能够对4种语言进行接近于同声传译水平的翻译。这个设备受到了视频“当他与一位法国女孩相遇”的启发。项目的创始人安德鲁·奥乔亚说,派乐能够让“人与人之间摆脱语言的障碍,让生命信马由缰”。在发布会之后,《福布斯》杂志采访了韦弗利实验室,仔细询问了这个翻译设备的真实性。但是他们却忽略了这个项目背后一个更加重要的假设:抛开资金问题不谈,这项设备能够帮助人们与外国人相恋吗?
乔希无意结识任何人,但这实在是一场美丽的偶遇。乔希正打算告诉他的新朋友,这本书是他在一次交通事故双腿受伤之后,他妈妈送给他的,这本小说陪伴了他10多年。服务员开始给他续茶。当服务员说话的时候,他发现,她说话的节奏与周围的人不同。然后,翻译器里就开始发声了:“你从哪来?”这个问题真是一个和陌生人开始聊天的万能句式。
电脑(比如IBM的设备)曾经运用和人类一样的模式学习语言:把一门语言中纷繁复杂的语法、例外用法、例外的例外用法进行内化。语法太复杂了,电脑程序可能要掌握超过一百万种指令。翻译结果经常显得非常笨重粗糙。1949年,科学家沃伦·韦弗提出了一种新的理念,它可以取代基于语法的翻译技术,这种技术被称作基于统计模型的机器翻译技术(SMT)。该技术并不会逐点进行翻译,韦弗提出了一种双管齐下的方法:首先,电脑会检索上百万份文档,用统计法找出具有典型性的语言模式,并由此记忆其中的语法、句法和遣词的规则。与此同时,程序会创建一个模型,来预测特定的短语将出现在句子中的什么位置,如何进行翻译。比如,一台电脑在数十亿次的重复之后,能够预测到,在德语中,动词一般出现在句子的末尾。
韦弗利实验室还没有公布他们软件的细节,但是,谷歌的翻译软件很可能也采用了同样的技术方法,谷歌用这种预测机制来提供统计学上最接近真实的翻译,这很可能是迄今为止最好的翻译方法。但是人们运用语言的环境多种多样,翻译软件也必须对具体的语境(也就是“域”)进行识别。比如,当一位客人正在买吉他的时候,翻译器就知道应该把“neck”翻译成“琴颈”。但是,为了实现统计上的典型性,一个“域”必须非常大,至少有200万个词。因此,这方面的翻译训练材料都来自如联合国这样的大型组织。这些组织拥有大量的已经被人工翻译的材料,即便如此,这种算法还是有其自身的局限性。
很多人即使阅读了5万份由英语翻译成罗马尼亚语的欧盟议会报告,也学不会罗马尼亚语;但是他们却能够轻而易举地看懂那些YouTube评论区里或是Facebook上的网络语言,这些网络语言就像垃圾场一样,充满了语法错误、词汇滥用或纯标点符号组成的表情。但是一台电脑遇到了哪怕一点程序之外的语法规则,都无法识别。
从结果上看,基于统计模型的机器翻译技术极大地提高了机器翻译的流畅度。但是它还无法应对俚语或者方言。这个问题只是一个技术层面的问题;理论上来讲,更大的数据库,更快的运算速度和更先进的算法最终能解决这个问题(就像办公软件里面的自动纠错功能一样)。其实,机器翻译技术所面临的真正难题,并不是技术层面的,难题来自于语言本身。
乔希告诉服务员,她的声音特别好听,然后又点了一份曲奇。他的新朋友也不介意服务员打断他们的谈话,但是乔希手里全是汗。他用餐巾擦了擦,不知道怎么样才能把话题带回那本小说上来。他口吃了半天,然后直接问出了头脑里出现的第一个问题:“你最近怎么样?”
愉快的气氛是如此的平常,人们经常忽视这种气氛的复杂性。从语言学上来看,这被称之为交际语言,意思是一种表达不光传递了一份信息,更达成了一种社交目的。比如,当别人问你“最近怎么样”的时候,多数人会觉得别人只是发出一份关心,并不是真的想打听你最近都经历了什么。只要数据库够大,机器就能识别“最近怎么样”这个句式,并进行与之相关的联想。但是交际语言,就像所有的常用语言一样,非常不稳定。如果乔希生在了乔叟的那个时代(14世纪),他可能会说:“贵客,欢迎来此”;在莎士比亚的年代(16-17世纪),他可能会说:“天赐良日,天公作美啊。”(那个时候“hello”用来表示惊奇、意外。)
“这本吗?”乔希举起了手中的书,问道。
“对呀。”
“这也是我的最爱,”乔希说,“这是译文版,不过,这本小说我至少读过12遍了。”
乔希的新朋友笑道:“是哪个版本的译文?谷歌版的还是亚马逊版的?”
科技乐观主义者认为,总有一天,人类能够借助翻译器,去阅读任何书籍,无论这本书的原语言多么晦涩难懂。一直以来这都是人工智能工程师的奋斗目标之一。翻译工作是电脑不能用数字技术解决的最古老的难题之一。1954年,乔治敦大学和IBM公司共同推出了第一款翻译器。这款翻译器能够把俄语翻译成英语,可以应对十分复杂的句子。它总共能够识别60个句子,遵循6种语法规则,内部储存了250个词汇。设计者对公众表示,机器翻译的技术难题,将在未来3到5年得以解决。
有无数人在这个领域进行着不懈的探索,2001年,谷歌重新投身于这个领域,并且很快就超过了其他竞争者。一开始,谷歌只能做6种语言之间的翻译(英语、葡萄牙语、德语、意大利语、西班牙语和法语),它不断改进自己的算法、翻译质量和翻译速度。到2005年,谷歌的翻译器已经能够支持8种语言了。它在一场翻译比赛中,用1000台电脑,在40个小时之内翻译1000个句子。而今,2016年,谷歌网站能够在几秒钟内,完成对103种语言的翻译。每个月,都有超过5亿人次使用翻译器。其中超过92%的用户不在美国。让机器翻译能够与具体的语境相结合,是所有程序员共同努力的方向,有的人甚至声称,机器翻译已经解决了这个问题。
上周,纽约市韦弗利实验室发布了他们的最新成果派乐(pilot)。这是一副售价299美元的耳机,预计在2017年发售。这项设备预计能够对4种语言进行接近于同声传译水平的翻译。这个设备受到了视频“当他与一位法国女孩相遇”的启发。项目的创始人安德鲁·奥乔亚说,派乐能够让“人与人之间摆脱语言的障碍,让生命信马由缰”。在发布会之后,《福布斯》杂志采访了韦弗利实验室,仔细询问了这个翻译设备的真实性。但是他们却忽略了这个项目背后一个更加重要的假设:抛开资金问题不谈,这项设备能够帮助人们与外国人相恋吗?
乔希无意结识任何人,但这实在是一场美丽的偶遇。乔希正打算告诉他的新朋友,这本书是他在一次交通事故双腿受伤之后,他妈妈送给他的,这本小说陪伴了他10多年。服务员开始给他续茶。当服务员说话的时候,他发现,她说话的节奏与周围的人不同。然后,翻译器里就开始发声了:“你从哪来?”这个问题真是一个和陌生人开始聊天的万能句式。
电脑(比如IBM的设备)曾经运用和人类一样的模式学习语言:把一门语言中纷繁复杂的语法、例外用法、例外的例外用法进行内化。语法太复杂了,电脑程序可能要掌握超过一百万种指令。翻译结果经常显得非常笨重粗糙。1949年,科学家沃伦·韦弗提出了一种新的理念,它可以取代基于语法的翻译技术,这种技术被称作基于统计模型的机器翻译技术(SMT)。该技术并不会逐点进行翻译,韦弗提出了一种双管齐下的方法:首先,电脑会检索上百万份文档,用统计法找出具有典型性的语言模式,并由此记忆其中的语法、句法和遣词的规则。与此同时,程序会创建一个模型,来预测特定的短语将出现在句子中的什么位置,如何进行翻译。比如,一台电脑在数十亿次的重复之后,能够预测到,在德语中,动词一般出现在句子的末尾。
韦弗利实验室还没有公布他们软件的细节,但是,谷歌的翻译软件很可能也采用了同样的技术方法,谷歌用这种预测机制来提供统计学上最接近真实的翻译,这很可能是迄今为止最好的翻译方法。但是人们运用语言的环境多种多样,翻译软件也必须对具体的语境(也就是“域”)进行识别。比如,当一位客人正在买吉他的时候,翻译器就知道应该把“neck”翻译成“琴颈”。但是,为了实现统计上的典型性,一个“域”必须非常大,至少有200万个词。因此,这方面的翻译训练材料都来自如联合国这样的大型组织。这些组织拥有大量的已经被人工翻译的材料,即便如此,这种算法还是有其自身的局限性。
很多人即使阅读了5万份由英语翻译成罗马尼亚语的欧盟议会报告,也学不会罗马尼亚语;但是他们却能够轻而易举地看懂那些YouTube评论区里或是Facebook上的网络语言,这些网络语言就像垃圾场一样,充满了语法错误、词汇滥用或纯标点符号组成的表情。但是一台电脑遇到了哪怕一点程序之外的语法规则,都无法识别。
从结果上看,基于统计模型的机器翻译技术极大地提高了机器翻译的流畅度。但是它还无法应对俚语或者方言。这个问题只是一个技术层面的问题;理论上来讲,更大的数据库,更快的运算速度和更先进的算法最终能解决这个问题(就像办公软件里面的自动纠错功能一样)。其实,机器翻译技术所面临的真正难题,并不是技术层面的,难题来自于语言本身。
乔希告诉服务员,她的声音特别好听,然后又点了一份曲奇。他的新朋友也不介意服务员打断他们的谈话,但是乔希手里全是汗。他用餐巾擦了擦,不知道怎么样才能把话题带回那本小说上来。他口吃了半天,然后直接问出了头脑里出现的第一个问题:“你最近怎么样?”
愉快的气氛是如此的平常,人们经常忽视这种气氛的复杂性。从语言学上来看,这被称之为交际语言,意思是一种表达不光传递了一份信息,更达成了一种社交目的。比如,当别人问你“最近怎么样”的时候,多数人会觉得别人只是发出一份关心,并不是真的想打听你最近都经历了什么。只要数据库够大,机器就能识别“最近怎么样”这个句式,并进行与之相关的联想。但是交际语言,就像所有的常用语言一样,非常不稳定。如果乔希生在了乔叟的那个时代(14世纪),他可能会说:“贵客,欢迎来此”;在莎士比亚的年代(16-17世纪),他可能会说:“天赐良日,天公作美啊。”(那个时候“hello”用来表示惊奇、意外。)