机器学习已能翻译失传已久的语言

来源 :科海故事博览·下旬刊 | 被引量 : 0次 | 上传用户:gx7411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  对失传已久的语言进行破译,一直是考古学家和语言学家关注的焦点和难点。随着大型注释库的应用以及机器学习技术的发展,人们开始思考,机器能否帮助破译失传已久的语言。近日,美国麻省理工学院的罗家明和雷吉娜·巴兹雷以及加州山景城谷歌人工智能实验室的曹元团队发明了能够破译失传语言的机器学习系统,并用它破译了线形文字B。1886年,英国考古学家阿瑟·埃文斯在地中海的克里特岛发现了刻着奇特未知语言铭文的古老石头。而石头上所刻的正是线形文字A和线形文字B。线形文字A可追溯到公元前1800— 公元前1400年间,当时该岛被青铜时代的米诺斯文明统治。线形文字B在公元前1400年后出現,当时该岛被来自希腊大陆的迈锡尼人征服。多年来,考古学家一直试图破译这些古老的文字,但都失败了。直到1953年,业余语言学家迈克尔·文特里斯破译了线形文字B。但破译更古老的线形文字A至今仍是语言学中令人瞩目的难题。罗家明等人发明的破译失传语言的机器学习系统,通过破译线形文字B证实了这一系统的有效性——这是首次机器完成自动破译,其实现方式与机器翻译技术不同。
  机器在不知其意的情况下,是如何实现翻译的呢?无论机器翻译哪种语言,原理都是从目的语中寻找与源语词汇相对应的单词,因而首先要将特定语言的对应关系映射出来。这一过程需要庞大的文本数据库。机器通过搜索该文本库,得出每个单词和每个与它相邻单词出现的频率。每个单词可以看作多维参数空间中的一个向量,该向量作为约束条件,限制了对应单词出现在机器翻译中的形式,并且这些向量会遵循一些简单的数学法则。机器翻译的关键是,不同语言中的单词在各自参数空间内占据着相同的“点”。这使得从一种语言一对一映射到另一种语言成为可能。因此,翻译句子的过程变成了在这些空间中寻找相似轨迹的过程。机器甚至无须“知道”这些句子的含义。罗家明等人研发的机器学习系统,其约束条件与语言发展方式息息相关。该原理是任何语言只能以特定的方式改变——比如,对应语言中的符号以相似的分布出现,对应单词以相同的字符顺序排列,以此类推。有了这些规则约束机器,只要知道源语言,就可以轻松破译。为了更好地测试该技术,罗家明等人使用了两种消失的语言——线形文字B和乌加里特语。线形文字B记录了古希腊的早期形式,而发现于1929年的乌加里特语则是希伯来语的早期形式。试验证明,罗家明等人研究的机器学习系统能非常准确地翻译这两种语言。“在破译过程中,我们能准确地将67.3%的线形文字B的同源词翻译成对应的希腊语。”他们说,“我们的实验是机器自动破译线形文字B的首次尝试。”然而他们却没有提到线形文字A的破译,众多语言学家都认为线形文字A的研究意义重大。所以,在机器能够破译线形文字A之前,仍需取得重大的研究突破。虽然没有源语,新技术也行不通,但机器翻译的最大优点是,它可以不知疲倦地快速检测一种又一种语言。因此,罗家明和他的团队很可能会使用粗略近似法破译线形文字A,试图把它破译成机器翻译已在使用的每种语言。
其他文献
自从200万年前人类祖先走出非洲,道路与旅途就成了每个人类个体生命中经常被忽略却占重要地位的组成部分。俗话说“走的人多了便成了路”,早在“道路”这个词出现在人类语言世界中之前,路就已经存在于现实世界了。千百万年过去,机械铺就的路取代了踩出来的路,交通个体也由行人变成各种机动、非机动交通工具。我们的城市道路看似已被形形色色的车辆完全占领,然而美国国家城市交通官方协会(NACTO)曾出具的一份未来无人
摘 要 随着网络技术与信息化教育的不断发展,翻转课堂的研究与应用在我国越发流行。以中国知网数据库中收录的2009—  2019年的1693篇涉及翻转课堂的文献作为研究对象,利用CiteSpace软件对文献数量分布、研究机构、核心作者以及关键词进行可视化计量分析。  關键词 翻转课堂;CiteSpace;知识图谱;信息技术  中图分类号:G642 文献标识码:B  文章编号:1671-489X(2
对经历过转型并成功的高德而言,坚持把导航这件事做好并利用阿里集团成员的综合实力去服务、触达更多用户和客户,并在此过程中实现商业价值最大化,这正是它十分厉害的地方。相关统计数据显示,2018年国内移动出行用户已达到4.99亿,相比2014年增长了近1.5倍。然而,市场快速发展的同时,用户需求并未得到充分满足:高峰期打车难、各个用车平台体验参差不齐成为消费者在出行过程中经常会抱怨的问题。与此同时,频发
阿秒,目前人类掌握的最小时间分辨尺度。阿秒级的运动不管你如何盯着看,都无法看到它,因为它的持续时间实在太短了,只有百亿分之一秒。决定物质基本性质的超快电子运动通常发生在阿秒量级的时间尺度,要想观测到电子运动这种超快过程,就需要超高速摄影技术,而阿秒光源就是一种捕捉电子运动的超快光学技术。人眼的视觉暂留时间一般为0.1—0.4秒,当物体的快速运动过程短于0.1秒时,受眼睛时间分辨率的限制,我们就无法
摘 要 随着信息技术的不断发展,各类现代技术开始逐步应用于教育行业之中。多媒体设备、视讯工具等现代教育技术的应用使得基础学科教育的课堂面貌为之一变,但仍存在形式大于内容等诸多刻板教学问题。尤其在高职基础数学教学中,因其教学目的、培养目标的不同,使得高职学生在基础数学课堂教学中表现不佳,即使辅助以现代化教育手段仍收效有限。以MATLAB软件在高职基础数学教学中的应用为例,探讨现代教育技术与基础学科教
摘 要 对于汽修专业的教学应该如何实施,才更有利于学生的就业和未来专业发展这一问题的认识,可谓是仁者见仁,智者见智。无论采用何种教学方式和手段,应立足于学校和专业实际,遵循职业教育规律,为学生建立专业知识体系是关键。  关键词 汽修专业;职业教育;专业知识体系;汽车电控发动机  中图分类号:G712 文献标识码:B  文章编号:1671-489X(2019)01-0112-02  1 前言  对
摘 要 随着专利意识和专利制度的不断完善,专利失效和侵权案件不断增多。设计授权的必要条件必须具有新颖性,产品外观设计在申请日前不得为国内外公众所知。也就是说,与国内外已经发表、使用或以其他方式为公众所熟知的设计相同或实质上相同的设计,即不视为新设计。因此,产品在判断相同或相似的设计时起着重要的作用。判断外观设计近似值最基本的方法是不用任何仪器,用肉眼观察。从表面上看,这很简单。每个人都能做到。但在
摘 要 随着我国社会以及科学技术的不断进步、与此同时伴随着全球资源大幅减少,环境污染日益严重等问题,目前全球发电方式仍以消耗传统能源为主,但众所周知我国传统资源储存总量有限,使得对传统能源的开发和使用有所局限,只能寻找可以替代的新能源。当前,全球正在兴起对新能源开发和利用的浪潮。  关键词 新能源 发电方式 传统资源  一、引言  随着我国社会以及科学技术的不断进步、与此同时伴随着全球资源大幅减少
摘 要 为解决中国农产品冷链物流行业中信息化应用系统由于研发成本、个性化需求响应速度以及与第三方系统集成度低等因素造成的推广应用难等问题,本文对12家从事生鲜农产品冷链物流相关业务的企业信息化需求进行深入调研分析,基于云服务及组件集成技术设计了生鲜农产品冷链物流云服务系统。系统在北京地区开展应用示范,涵盖生鲜果品、蔬菜、冷鲜肉等农产品生产加工、配送企业。应用结果表明,组件的按需定制与自由组合能够快
摘 要 为了更好地帮助企业做好档案管理工作,本文将围绕大数据分析法展开研究,研究重点论述大数据分析法的实现方案,后介绍该方法优势,最终分析该方法应用方式。通过大数据分析法,企业可以摆脱传统档案管理的诸多问题,管理工作的效率、质量等有显著提升,这些表现有利于企业发展,企业能够充分发挥档案作用,准确分析市场需求,确立正确发展方向。  关键词 大数据分析法 实现方案 企业档案管理 应用路径  中图分类号