机器学习如何破译早已消亡的古老语言

来源 :海外星云 | 被引量 : 0次 | 上传用户:shenkui1945
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在大英博物馆的柔光照射下,人们只能勉强看到镌刻在这些古老泥板上的密密麻麻的楔形标记。这些细小的标记是世界上最古老的书写系统——楔形文字的遗迹。
  楔形文字起源于5000多年前的美索不达米亚,位于底格里斯河和幼发拉底河之间,也就是现在的伊拉克。楔形文字捕捉了一个长达3000年之久的、复杂而迷人的文明。从王室兄弟姐妹之间愤怒内斗的信件,到安抚一个任性婴儿的仪式,这些石碑让人们可以从另一个独特的视角了解历史初期的社会。
  它们记录了阿卡德、亚述和巴比伦帝国的兴衰,这是世界上第一个帝国。据估计,人们已经挖掘出了约50万块楔形文字板,但还有很多仍深埋地下。约150年前,学者首次破译楔形文字。然而,只有一小部分能读懂这种文字的人才了解其中的秘密。目前,仍有约90%的楔形文字未被翻译出来,但是这种情况可能会有所改变,这都要归功于现代工具——机器翻译。
  “人们并不了解美索不达米亚文明对自身文化的影响,”多伦多大学亚述学研究员佩龙说。美索不达米亚文明孕育了车轮、天文学、一小时60分钟的计时制、地图、洪水和方舟的故事、以及第一部文学作品——《吉尔伽美什史诗》。这本诗集主要是用苏美尔语和阿卡德语写成的,能读懂这些语言的学者少之又少。
  佩龙现在正在进行的一个项目,是用机器翻译公元前21世纪以来美索不达米亚文明的行政记录,数量多达6.9万份,其目的之一是为新的研究发掘过去。佩龙说:“我们虽然已经获得了关于美索不达米亚人生活的信息,但却没有真正从(美索不达米亚)不同领域专业人士的知识中获益,比如经济和政治领域。如果有渠道(了解这些知识),我们能更好地了解那些古老的社会。”
  除了石碑,还有五万多枚美索不达米亚雕刻印章散落在世界各地。几千年来,美索不达米亚人使用由雕刻石头制成的印章,这些印章被压入潮湿的粘土中,用来标记门、罐子、石板和其他物品。这些刻章中只有1/10被編入目录,更不用说翻译了。
  牛津大学亚述学教授达尔表示:“我们所获得的关于美索不达米亚文明的资料比希腊、罗马和古埃及的加起来还要多,但真正的挑战在于找到能读懂它们的人。”
亚述国王积攒了大量刻有楔形文字的石碑。这些文字是与早已灭绝的语言之间最后的联系
能够识别古代石碑文字的算法能够帮助研究人员将它们与制造它们的原始石印进行匹配
人们在先进的成像技术及机器视觉工具的帮助下破译古代语言,如原始埃兰语
三维成像技术能够详细检测青金石石印这样的圆柱形石印

  佩龙和她的团队正在对一个数字化数据库中的4000个古代行政文本样本编写算法。这些行政文本包括交易和运输记录,比如把羊、芦苇束或啤酒运到寺庙或个人手中的记录。这些文字最初是用芦苇笔刻在粘土上的,现在,学者已经把它们音译成了我们的字母表。例如,苏美尔语中表示“大”的词可以写成楔形文字,也可以写成英文字母表中的“gal”。
  这些行政文书的措辞很简单。例如,“第15天,厨房有11只母山羊”。这种特点使得它们特别适合被自动化处理。一旦算法学会了将样本文本翻译成英语,它们就能自动翻译其他经过音译的石碑。
  佩龙表示:“如果单独看我们正在研究的文本,它并没有那么有趣。但如果你把它们当作一组文本来看,就有意思多了。”她预计英文版平台将在明年内上线。这些记录向我们展示了古代美索不达米亚人的日常生活,包括权力结构和贸易网络,同时还展示了社会历史的其他方面,如女工的角色。平台上可被检索的翻译,将使不同地方的研究人员都能探索到古代生活的丰富面向。
  佩龙解释说:“这些人与我们是如此不同,但他们也面对着和我们一样的基本问题。理解美索不达米亚文明,能够帮助我们理解生而为人的意义。”
  她希望机器分析也能弄清苏美尔人的一些特征,这是至今仍困扰着现代学术界的难题。这种已经灭绝的语言与任何现代语言都没有联系,但却保存在以楔形文字书写的碑文中。这可能是我们与更古老,甚至没有历史记载的社会之间最后的联系。
  “苏美尔语可能是数千年前的语言大家庭中的最后一个成员,”芬克尔说。“文字及时地出现在这个世界上,拯救了苏美尔语……幸运的是,在苏美尔语与其他文字一起消失之前,我们及时地开始学习这种语言。”
  芬克尔是世界上顶尖的楔形文字专家之一。他在大英博物馆堆满书的办公室里讲解了手稿是如何慢慢被破译的,这多亏了一位国王的多语种铭文,就像罗塞塔石碑帮助研究人员理解了埃及象形文字一样。
  他说:“当你与千年前的灵魂进行交谈时你会惊讶地发现,这简直太有趣了,仿佛在和他们打电话。认识他们是世界上最令人兴奋的事情。”

触碰古老宝藏


  只有少数人能接触到拥有5000年历史的石碑,但多亏了先进的成像技术,现在任何人只要能上网就能接触到这些宝藏。比如,世界上现存最古老的皇家图书馆,人们正在将它数字化。这座图书馆位于尼尼微,由亚述国王亚述巴尼帕建造。大英博物馆展出了图书馆里幸存的一些碑文,是亚述巴尼帕专题展览的一部分。虽然早在公元前612年,尼尼微遭遇洗劫时,这些碑文被火烤得又黑又硬,但上面得文字仍可辨认。   新的成像技术让人们在处理这些古老且破损严重的文本时更加轻松。有了精细的图像,人们就有可能找出那些肉眼看不见的模糊标记。
  达尔和他的同事一直在进行一个名为“楔形文字数字图书馆倡议”的项目,将储存在德黑兰、巴黎和牛津馆藏中的碑文及印章进行数字化处理。这个庞大的在线数据库已经包含了世界上约1/3的楔形文字,以及一些未被破译的书面语言,如古伊朗的原始埃兰语。如果没有这样庞大的数字资源,让机器进行翻译几乎是不可能的。
伊拉克考古学家发掘出数千块刻有世界上最古老文字的石碑

  数字化还帮助研究者们将散落在世界各地的文本拼凑起来。达尔与南安普顿大学及巴黎南泰尔大学的研究者一同对美索不达米亚的200多枚石印的3D图像进行了数字化处理。在试点项目中,他们使用了人工智能算法校验了六块碑文,并识别出在世界其他地方发现的与之匹配的石印。算法准确地挑选出了两塊现存于意大利和美国的石碑,这两块石碑上盖的石印是一样的。
  在过去,想要将石印和印痕匹配起来困难重重,因为许多石印储存在数千英里之外的地方。达尔预计,五年内可以将所有的印章进行数字化处理,这样就可以追踪其他方面的信息。比如说,有迹象表明,某种石头更受到女性的青睐。
  达尔说:“要得出这种结论必须拥有大量经过处理的石印图像,并运用算法和机器学习等技术。”他希望,人工智能的发展能帮助探索世界各地收藏品中蕴藏的丰富信息。
  “亚述研究涵盖了人类历史的一半,是一种濒临灭绝的文化遗产。我希望亚述学能走在这方面的前沿。”

破译古人的语言


  成像技术也改变了对于未破译文本的研究。对于数量少、具创造性文本的破译,人类往往比机器做得更好,人类有着对生活和组织方式的深入理解,以及高度的灵活性。
  例如,早期的楔形文字符号并不是线性排布的,而是简单地与画在周围的方框排在一起。原始埃兰语是三维立体的,一个圆印的深浅不同意义也不同。但是,技术可以放大、分享和比较图片的细节,加快了破译进程。
  一直致力于破译神秘文本的达尔说:“获得正确的图像是问题的核心。原始埃兰语研究缺乏的正是这个。”
  这些进步已经超越了亚述学领域。剑桥大学高级研究员斯蒂尔是研究古克里特和希腊早期文字系统的专家。其中包括“线形文字A” (一种未破译的文字)和“线形文字B”(一种古代希腊语的书写形式)。
  归功于成熟的成像技术,古代石碑上的文字被很好第呈现,斯蒂尔才在其中发现了新的细节。
  她说:“你可以辨认出肉眼很难辨认的特征。这些特征通常与撰写文本的人与文本交互的方式相对应。例如,对于线性B,你可以分辨出更改的痕迹。有时你可以判断出撰写这份文件的人是什么时候想出来了什么,然后又在上面写了什么。”
  佩龙希望机器最终能够翻译更复杂的苏美尔语石碑和其他语言,比如阿卡德语。她说:“关于古代文化,还有很多东西有待发现。”
  也许有一天,我们将能够阅读所有古老文字的翻译版本,尽管当我们去世时,美索不达米亚的许多未解之谜还未解开,尤其是现在许多缺失的楔形文字碎片仍深埋地下,等待挖掘。
  古代美索不达米亚的国王们深深地思考着过去和未来。他们崇敬前朝的楔形文字,将记录着他们的名字和成就的铭文埋藏地下,寄望后世的统治者会将荣耀归于自己。
  在某种程度上,他们的愿望已经实现。他们的经历过的战争和征服可能已经被大多数人遗忘,但是他们最强大的发明——文字——在过去的几千年里助力了人类思想和技术的发展。而现在,人类开始训练机器从过去中学习。(摘自英国广播公司新闻网)(编辑/诺伊克)
其他文献
拉格斐在当下时尚界的地位几乎无人能及  时尚大师卡尔·拉格费尔德在巴黎过世,享年85岁。他享誉盛名的才华在时尚业引领风潮数十年。然而,他语出惊人的争议言论也屡招批评。“老佛爷”  这位被华人世界誉为“时装界的老佛爷”的德国设计师生前是香奈儿和芬迪的创意总监,并拥有与自己同名的品牌。他是该行业最多产的人物之一。他标志性的马尾辫和深色眼镜使他成为全球时尚界的代表人物。  包括意大利设计师多娜泰拉·范思
我爸妈很早离婚,妈妈养三个小孩,常连学费都付不出来,我国一就到加油站打工,后来又送报、送菜、发海报、送羊奶……甚至当过酒店少爷。  其实我爸爸那边蛮有钱,爷爷在民生社区、大湖山庄都有地,我爸则是玉商,可是他一赚到钱就拿去吃喝嫖赌,一毛也不给我们,有时六合彩赌输了,还跟家人要钱。  爸爸从不跟我们联络,直到我上大学,有天他突然跑来说要我继承衣钵,教我卖玉。我对他没感情,只把他当合伙人,那年我确实赚了
阿杰(化名),毕业于台湾长庚大学医事检验技术系(现为医学生物技术暨检验学系),原本是一家大型医疗器材公司的销售员。  阿杰2008年的业绩超过公司目标35%。一个人的成绩是其他两位业务的总和。因此,工作第一年,阿杰即领月薪6万元(新台币,下同)。  没想到,2009年1月的业务会议后,主管眉头深锁地对他说:“上面的人希望你走,你做到这个月底,薪水会算到2月底。你赶快安排一下交接事务……”  主管转
奋勇护主的马    克萝珍·温德尔从小就跟动物有种特殊的感情。5年前,温德尔家把“阳光男孩”带回美国路易斯安那州的农场,从此这匹金黄色的马就跟她成了超乎想象的好朋友。“阳光男孩”小时候可能遭受过虐待,不喜欢别人接近,除了克萝珍。  2008年3月,当地小镇举办红芽节游行,温德尔家全家出动,穿上西部牛仔的行头。走过几条街后,人群中突然窜出一只75磅重的斗牛犬,向他们直冲过来。克萝珍放开缰绳时。“阳光
“教学不能只围着教材转、教室转、教师转”,“教育不能止于‘有效’”……多年来,江苏省溧阳市实验小学的老师们一直在教育改革的道路上探索着,并不断否定着一些教育理念与行为。与此同时,他们也不断地建构着自己的教育哲学:教育就是生长,教育就是服务,教育要秉持儿童立场,教育的目的应该指向于儿童的生长。  教育:生长与服务的过程  教育是什么?好的教育是什么样的?这是溧阳市实验小学张康桥校长一直追问自己的问题
霍比特村,童话般的实景现场  若要说因为电影带起旅游风潮的最佳范例,《指环王》绝对榜上有名,如史诗般的《指环王》三部曲将新西兰壮阔的山川景物搬上大银幕,直到今天都还是指环王迷们追逐的焦点。据统计,《指环王》三部曲为新西兰观光带来将近45亿人民币的收益,电影工业也对新西兰的年收入贡献了大约120亿人民币,难怪新西兰政府从2012年8月开始,便倾全国之力进行一系列“中土世界”改造计划,要让新西兰的重要
笔者所在学校近期开展优质课评比活动,从众多精心准备的参赛公开课中我感受到了课改后课堂的变化,板书基本被屏幕代替,学生分组讨论热热闹闹,学生好像真正实现了自主学习。但事后仔细回味这些课,总感觉热闹的课堂背后好像缺失了点什么。  一、莫被乱花迷人眼  课改实施以来,多媒体、分组讨论等新的教学手段展现出旺盛的活力,由于其具有可以展示各种图表、扩大课堂容量等优势,以至于很多地理教师上课必用多媒体,见问题必
南非世界杯期间,刘建宏以“车震”的表演方式为大家演绎了CMMB移动电视的优势——随时随地看世界杯,这着实让CMMB火了一把。借此东风,一向专注手便携式音箱领域的声丽也推出了CMMB产品TV9。这款以音箱的设计思路开发出的CMMB产品到底能有怎样的表现?MC评测工程师对其进行了详细测试。  目前,市面上主流的CMMB移动电视产品都是采用类似PMP的造型设计,在便携性方面有一定优势,但声音表现不佳,往
为名人制作蜡像这一概念已经有相当长一段时间,蜡像的逼真程度超乎大多数人的想象,为蜡像揭幕时,蜡像参照主人会被要求穿着跟蜡像同款的服装,真人和蜡像站在一起还真有些被混淆的时刻。  2013年7月11日美国纽约刺青店内,美国刺青艺术家杰西卡·V站在美国流行歌手蕾哈娜的蜡像旁。  2011年3月15日流行偶像歌手贾斯汀·比伯在英国伦敦的杜莎夫人蜡像馆与自己的蜡像合影。  2010年12月9日德国柏林,女
墨西哥新当选总统奥夫拉多尔  墨西哥新当选总统奥夫拉多尔计划在12月上任时将把自己总统工资降低60%。  这位左翼新总统减薪后的月工资将相当于5707美元,而且该国其他政府公职人员的工资都将不能超过他。  其实,奥夫拉多尔不是第一位发表声明减薪的国家领导人。  以下国家领导人的工资,看看都有哪些国家领袖带头减薪?高收入的  新加坡总理李显龙据说是薪酬最高的领导人。他的年薪为200万美元。  英国首