机器翻译的发展历史及其应用

来源 :科学与生活 | 被引量 : 0次 | 上传用户:lovesyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:简要述评了机器翻译的起源和发展,实现机器翻译的原理方法分类,包括基于规则、基于统计法、基于实例、混合法等。同时介绍了机器翻译应用的主要场合和应用的前提条件。
  关键词:机器翻译;神经网络;深度学习
  机器翻译Machine Translation(简称为MT)属于计算语言学的分支,主要是研究如何使用计算机软件将一种语言文本或语音从翻译成另一种语言。
  一般来讲,机器翻译指的是使用计算机软件机械地用将某种语言的词汇替换成另一种语言(比如,“dog”转为“狗”),但是,不难想象,仅凭这种方式很难产生好的翻译,因为计算机还需要能够识别目标语中的整个短语、句子甚至是语篇,然后找出最接近的意思。比如“luckydog”直接翻译成“幸运的狗”难免让人啼笑皆非。
  1. 发展历程
  机器翻译渊源可以追溯到9世纪一位叫Al-Kindi的阿拉伯密码学家的研究,他开发的一些技术可以用于系统语言翻译,包括密码分析、频度分析、概率和统计,这些技术后来被用于机器翻译。而机器翻译的想法则出现在17世纪。在1629年,René Descartes提出了一种通用语—在不同的语言中,相同的思想用同一个符号来表示。
  早在1946年就由洛克菲勒基金会的A.D. Booth和Warren Weaver就同时提出了使用数字计算机翻译自然语言的想法。“Warren Weaver在1949年撰写的备忘录,可能是机器翻译早期最具影响力的出版物。” 1954年,ji在伦敦大学伯克贝克学院的APEXC机器上进行了英语翻译的初步演示。
  Yehoshua Bar-Hillel于1951年在麻省理工學院开始了机器翻译的研究。由Michael Zarechnak教授领导的MT研究小组,随后也开始了研究,并在在1954年公开展示了其Georgetown-IBM翻译实验系统。MT研究项目随后在日本和俄罗斯出现(1955年),并于1956年第一次在伦敦举行MT会议。David G. Hays早在1957年就写了关于计算机辅助语言处理的文章,他于1955年到1968年作为Rand公司计算语言学的项目负责人。
  在1962年,机器翻译和计算语言学协会在美国成立。1964年美国国家科学院成立自动语言处理咨询委员会(ALPAC)来研究机器翻译。随后,越来越多的研究人员继续加入该领域。虽如此,该领域真正的进展要慢得多。在1966年,据ALPAC报告称,长达10年的研究未能达到预期,随后,资金大大减少。但并非一无所获,根据国防研究和工程主任1972年的一份报告,Logos MT系统成功地将军事手册翻译成越南语,从而重新确立了大规模MT的可行性。在1970年,法国纺织学会也使用机器翻译将摘要翻译成法语、英语、德语和西班牙语);杨百翰大学(Brigham Young University)启动了一个自动翻译摩门教文本的项目。
  SYSTRAN在1978年被施乐公司用来翻译技术手册。从20世纪80年代末开始,随着计算能力的提高和成本的降低,人们对机器翻译的统计模型表现出了更多的兴趣。计算机出现后使得MT变得更受欢迎。SYSTRAN的第一个应用案例是在1988年由法国邮政提供的的Minitel在线服务。逐渐出现了各种以计算机为基础的翻译公司,比如Trados。
  到1998年,“只要29.95美元”,就可以“买到一个程序,让你迅速在英语和主要欧洲语言之间实现单向翻译”。
  网络上的MT始于SYSTRAN在1996年提供小文本的免费翻译,它是通过AltaVista Babelfish提供这一服务的,每天累积了50万次请求。网上第二个免费翻译服务是Lerout 和 Hauspie的GlobaLink.
  Franz Josef Och (谷歌未来的翻译开发负责人)在2003年赢得了DARPA的速度MT竞赛。在2007年出现了MOSES,一种开源统计MT引擎。在2008年在日本出现了手机文本/短信翻译服务,以及2009年出现的内置英语、日语和中文语音转换功能的手机。2012年,谷歌宣布谷歌Translate在一天内翻译的文本大约足够填满100万本书。
  2. 方法原理
  机器翻译可以使用基于语言规则linguistic rules的方法,这意味着单词将以语言的方式进行翻译—目标语言中最合适的单词将取代源语言中的单词。
  基于规则rule-based的机器翻译模式包括基于迁移transfer-based的机器翻译、语际interlingual机器翻译和基于词典dictionary-based的机器翻译。这种类型的翻译主要依靠词典和语法程序的创建。
  统计Statistical机器翻译尝试使用基于双语文本语料库的统计方法生成翻译,如加拿大Hansard语料库、加拿大议会的英法记录和欧洲议会的EUROPARL记录。如果有这样的语料库,可以在翻译相似文本时取得良好的效果,但在其他许多语言对中,这样的语料库仍然很少。
  基于实例example-based的机器翻译(EBMT)方法是由Makoto Nagao于1984年提出的。基于实例的机器翻译是基于类比的思想。在这种方法中,所使用的语料库包含已经翻译过的文本。
  混合机器翻译(HMT)利用了统计和基于规则的翻译方法的优势,一些MT组织提出了一种混合的方法,它同时使用了规则和统计数据。
  神经机器翻译是一种基于深度学习的MT方法,近年来取得了快速进展,谷歌宣布其翻译服务现在优先使用该技术,而不是以前的统计方法。
  3. 应用领域
  虽然还没有任何翻译系统能够完成随意文本的高质量自动翻译,但许多自动翻译系统能够已经能够完成合理的翻译任务。如果对源文本进行适当的限制和控制,机器翻译的质量将大大提高。   所以,MT翻译程序在世界各地都在使用。这其中最大的机构使用者可能是欧盟委员会。例如,由哥德堡大学参与的MOLTO项目从欧盟获得了237.5万欧元的项目支持,用以创建一个涵盖欧盟大多数语言的可靠翻译工具机器翻译系统。人工翻译预算的削减可能增加欧盟对优秀机器翻译程序的依赖。欧盟委员会(通过ISA计划)出资307.2万欧元创建MT@EC,这是一个为欧盟管理需求量身定制的统计机器翻译程序,以取代以前基于规则的机器翻译系统。
  机器翻译在社交网络上也有用武之地,在诸如Facebook等社交软件或像Skype,Google Talk,MSN等的即时通讯软件在,机器翻译程序允许用户用不同的语言相互交流。另外,机器翻译应用程序也已经部署到大多数移动设备上,包括移动电话、掌上电脑、PDA等。由于它们的便携性,这些工具已被作为移动翻译工具来使用,允许使用不同语言的合作伙伴之间可以移动网络进行交流,也促进外语學习和无需人工翻译的出国旅行。
  目前的机器翻译软件大多被用于按领域进行定制翻译,如天气报告,通过控制输入语言的范围来提高输出质量。这种技术在使用正式语言或公式化语言的领域尤其有效。因此,机器翻译比较擅长翻译在政府和法律文件。
  4. 结语
  随着计算机技术和大数据的发展以及深度学习和神经网络技术的成熟,机器翻译会越来越智能。在学校教育中,也可以利用机器翻译促进教育工作的开展。
  参考文献
  [1]林倩,刘庆,苏劲松,林欢,杨静,罗斌.神经网络机器翻译研究热点与前沿趋势分析[J].中文信息学报,2019,33(11):1-14.
  [2]侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35+66.
  [3]胡开宝,李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译,2016,37(05):10-14.
  [4]蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436.
  [5]杨南. 基于神经网络学习的统计机器翻译研究[D].中国科学技术大学,2014.
  作者简介
  朱世卫(1990—),男,汉族,河南汝阳人,研究生学历,广东信息工程职业学院专任教师。研究方向:英语教育,翻译教学等。
其他文献
系统原理简介:  发动机引气系统主要分为以下两个部分:  1.压力调节系统。  2.引气预冷系统。  压力调节系统:  发动机引气系统根据发动机的功率,可以自动选择从发动机压气机中压级或高压级引气。当发动机处于慢车状态时从高压级10级引气,经过高压引气活门(HPV)调节引气压力为36士3PS1。当发动机高功率状态时从中压级7级引气,经过压力调节活门(PRV)调节引气压力为44+3PSI。  高压引
期刊
摘要:本文从传统安全培训的问题出发,针对性地建立了安全培训可视化平台。通过需求征集与层次分析、关键技术路线制定、措施制定与实施等过程,完整的叙述了安全培训可视化平台的创建内容,为下一步可视化培训的展开指明了方向。  关键词:可视化培训平台安全  1.概述  目前,新入职员工在入岗前均需按照规定进行相关安全培训,并对岗位的危险点进行一一识别。传统的培训方式可以一定程度上提高员工的岗位安全意识,但仍旧
目的 探讨胰十二指肠切除术(PD)套入式胰肠吻合降低胰瘘发生的方法.方法 回顾性总结95例PD的临床资料,消化道重建均行Child术式,用4-0的Prolene线行胰肠端端套入式连续吻合.结果 95例PD病例术后发生胰瘘1例,经引流后短期内治愈.无围手术期死亡.结论 套入式胰肠端端吻合方法预防胰瘘的关键在于正确处理胰腺残端、胰管内放置引流管、娴熟的吻合技术、正确放置腹腔引流。
目的 评价心肌酶谱及肌钙蛋白对有机磷农药中毒患者心肌损害的诊断价值.方法 检测60例不同急性有机磷中毒患者及30例健康对照组的心肌酶谱及肌钙蛋白水平,并进行比较.结果 不同程度的中毒患者血清肌钙蛋白和心肌酶谱随病情的加重而增加.结论 心肌酶谱及肌钙蛋白反映急性有机磷农药中毒患者的心肌损害,尤以肌钙蛋白为佳。
摘要:网络的普及和深入使得个人信息逐渐透明化,侵犯公民个人信息犯罪呈高发态势,并且犯罪开始组织化、链条化、技术化,对个人信息安全造成巨大的冲击,加大了刑法对其规制的难度。目前,《刑法修正案(九)》对本罪进行了规定,但也存在个人信息范围模糊、前置性法律缺失、犯罪行为方式规定不完善的困境。因此,必须加快完善公民个人信息的刑法保护,同其他相关法律一起形成完善的个人信息保护机制。  关键词:侵犯公民个人信
目的 观察肠內营养对危重病机械通气患者的临床疗效.方法 78例需机械通气患者,肠內营养组42例,予以能全力(荷兰Nutricia公司)每日1000 ml鼻饲;对照组36例,予以普通流质每日1000ml鼻饲(250 ml,每日4次).观察治疗前和治疗后3、7、14 d 2组患者血清总蛋白、白蛋白、肌酐身高指数、免疫球蛋白、淋巴细胞计数、氮平衡、氧合指数(PaO2/FiO2)、呼吸机参数、血常规以及A
摘要:针对智能交通领域数据安全等方面存在的痛点问题,将区块链相关技术应用于智能交通系统中,解决车辆在数据共享传输过程中可能存在网络攻击,信息内容被恶意篡改等问题。通过对关键技术应用的研究,提出了基于区块链的交通监控数据安全保护设计方案,对推动交通安全发展具有重要意义。  关键词:区块链,交通监控,智能交通  一、引言  在智能交通系统中,通过海量信息的传输来实现信息的传递。特别是对交通车辆实施有效
摘要:时间进入二十一世纪,互联网得到快速的发展,随之而产生的大数据产业逐渐融入到我们的生活中。在当前大数据迅速发展的形势下,生活中各行各业已经逐渐重视起人力资源管理在企业发展中的重要作用,为了让企业人力管理工作尽快适应这个快速发展的互联网大数据时代,对人力资源管理进行变革显得尤为重要,本文将基于大数据时代企业人力资源管理变革进行分析,为企业提供相应的参考建议,更好的推动社会经济的发展。  关键词:
表格是医学科技论文的重要表达方式,清晰、明确的表格可正确反映研究结果[1].表题是表格的名称,是以最恰当、最简洁的词语表达表格中特定内容的逻辑组合。
目的 研究玻璃酸钠与得宝松关节腔内注射补充治疗膝骨关节炎(OA) 的疗效.方法 选择临床OA 患者50例, 采用关节腔内注射SH与得宝松联合治疗,每周1次,每次玻璃酸钠2 ml、得宝松0.2 ml,疗程5周.结果 玻璃酸钠联合得宝松治疗OA总有效率为96.2%.结论 联合替代疗法治疗早、中期膝OA是一种值得推荐的方法。