论文部分内容阅读
怎样让用户能跨语言进行搜索并获得更多信息?这项工作一直就是很多文化工作者的中心,为了解决语言之间的交互问题,甚至有一门被称为“机器翻译”的学科专门在研究。
Google 的拥护者们总是津津乐道于Google的终极理想—“整合全世界的信息让每个人都能免费地随时取用。”这个理想看起来就好像当年的巴别塔,目标伟大但是困难重重。这其中首先要遇到的一个问题就是语言差异以及由此产生的文化理解差异。面对全世界众多的语言,怎样让用户能跨语言进行搜索并获得更多信息?这个工作一直就是很多文化工作者们的中心,为了解决语言之间的交互问题,甚至有一门被称为“机器翻译”的学科专门在研究如何解决这个问题。
另一方面,如果需要把这样的需求用搜索引擎来实现的话,显然不是简单使用不同语言版本的搜索引擎获得不同语言的答案就可以解决的。我们想要的是输入中文,然后得到类似于英文的结果,不可能吗?
简单的理论通道
从理论上来说,跨语言翻译的功能并不复杂,其基本原理为,用户从人机界面输入搜索关键词,网站首先利用该关键词在母语版本的搜索引擎上搜索母语的结果,然后通过网站后台的机器翻译引擎将关键词翻译成目的语种,并将其送进目的语种版本的搜索引擎进行搜索,再将返回的结果通过某种整合形式融入到最终的搜索结果显示页面。
跨语言翻译的原理如此简单,但从技术上实现却并不是件很容易的事情,其发展主要受制于机器翻译技术的进步。毋庸讳言,直到目前为止,机器翻译的效果尚停留在一个相对较低的水平,对于较短的单词、词组或短句的翻译还可以接受,如果句子稍长或者结构较复杂,那么翻译结果就不太尽如人意,由此得到的搜索结果也就可想而知。
由于受制于其他技术的发展,因此跨语言搜索的进展相对于其他类型的搜索技术来说相对较慢。不过,随着搜索引擎所积累的数据越来越庞大,加上互联网上的照片数量也开始成几何级数增长,使得跨语言搜索可以逐渐开始扩大影响力。2008年12月底,Google正式推出了跨语言搜索功能,结束了长达数年的Beta版。而在此之前,已经有一个名为PanImages的图片搜索引擎部分实现了跨语言搜索。
又是Google
首先我们来看看PanImages。PanImages提供100多种国家语言的翻译,当用户输入关键字并选择其隶属于哪种语言以后,它会通过机器翻译将关键词转换成各个国家的语言,让用户选择。用户点击相应语言翻译,PanImages就将翻译之后的关键词在目前世界上领先的图片搜索Google图片搜索和Flickr图片搜索中进行相应的搜索,并通过分栏的方式返回相应的搜索结果。
如果说PanImages的跨语言搜索还处在一个较低的水平上,那么Google借助其海量的搜索数据所实现的跨语言搜索就可以提供真正实用的功能了。用户只需在Google中输入一个搜索词组如中文的“谷歌”,并选择需要搜索的目标语种如英语,便可以轻松查找到包含“Google”关键词的网页。这样一来,用户就可以使用自己的母语来浏览国外网站,搜索到自己想要的所有资料。
Google实验室产品主管Cyrus Mystry表示:“Google搜索应用计划混合3000万文件,当执行用户搜索时从各个服务器中实施搜索。”为了方便用户阅读,Google搜索服务还将使用翻译工具,将搜索到的结果自动翻译为用户定义的语言。目前Google跨语言搜索支持35种语言,包括简体中文、繁体中文、越南文、英文、印尼文、印度文、意大利文、希腊文、希伯来文、西班牙文、乌克兰文、斯洛伐克文、斯拉维尼亚文、塞尔维亚文、瑞典文、日文、葡萄牙文、挪威文、立陶宛文、拉脱维亚文和罗马尼亚文。
在使用时,Google把搜索结果网页中的信息分为两栏,右侧为跨语言搜索到的原始网页,左侧则是翻译成为用户选择的语言,每一个网页的两种语言结果平行对应。如果用户认为Google翻译的查询关键词有误差,还可以对翻译结果人工进行编辑,再次要求Google根据新的关键词进行搜索。