蒙汉机器翻译中数词自动翻译的研讨

来源 :决策与信息·下旬刊 | 被引量 : 0次 | 上传用户:y2228158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】随着我国现代经济及科技的不断发展,计算机技术作为新兴技术在自然语言信息处理方面已经得到了广泛应用,计算机技术在语言信息处理方面可设计相关系统实现对蒙古文数词的自动识别与翻译。本文主要以蒙汉机器翻译为研究背景,对其在数词自动翻译系统及应用结果方面进行相关探究,实现对蒙汉统计机器翻译的完善性研究,促进机器翻译性能的提升。
  【关键词】蒙汉机器翻译;数词;自动翻译
  目前,随着现代计算机技术的完善性发展,蒙汉机器翻译的发展及应用已逐渐趋于成熟,成为人们应用最广泛的机器翻译方法。在统计机器翻译方面,国外已有大量的理论及技术研究基础,因此,我国在进行蒙汉机器翻译研究的过程中可借鉴相关理论及技术基础,从而实现对该方法的有效研究。但是,由于蒙古语语言自身具有一定的多变性及复杂性,从而导致蒙汉机器翻译在研究中仍存在一系列问题亟待解决。
  1.蒙汉机器翻译中数词自动翻译特点
  1.1语言类型复杂性 从语言学角度上来看,汉语与蒙语属不同语系,二者语言特征及形态特征等均存在较大的差异性,故蒙汉机器翻译数词自动翻译在研究中若采用传统研究思路则难以实现数词有效翻译;除此之外,蒙语形态的复杂性主要表现在数词的变形,该语种变形最多可达上百种,但汉语的词语形态及语法等多无形态变化,故在机器翻译中会出现大量未登录词,难以实现语言的完善及有效翻译[1]。
  1.2语言资源缺乏 现阶段,在應用社会中常用的统计机器翻译方法时,需要大量语言资源对其进行支持,如在应用NIST机器翻译测评时,其可提供的相关双语语料库规模可达1000万句对,故平行语料库规模较小,难以满足系统翻译需求,从而影响翻译效果。
  2.蒙汉数词自动翻译程序设计
  数词具有多表现形式,属开放性集合,在蒙汉双语语料库中数词形式具有相对不完善性,导致蒙汉翻译译文中多现未登录数词。由于蒙古数词的多表现性,真实文本中数词除了以蒙古文形式表现外,还会以多种形式如阿拉伯数字等出现,因此蒙汉机器在翻译时因其自身的局限性,难以对所有数词进行准确翻译。针对此类问题,本文主要对蒙汉数词自动翻译程序进行完善性设计与改善,提升翻译效果。蒙汉数词自动识别及翻译程序主要通过C语言实现,该程序在具体应用中能够以词性准确切分蒙古文拉丁形式,并能够对蒙古文数词及部分时间词等相关资料进行准确性识别,在此基础上实现自动翻译,蒙古文中数词多现词格变化,多表示事物数量或替代事物,故在对数词进行准确性识别时,必须先对其词缀进行切分,后对相关词语进行识别,在此过程中,若对序数词及分数词进行识别时,需合理应用各信息,实现正确识别,故在对词缀切分功能进行设置时,需在序数词及分数词识别后才可设置。 蒙汉数词自动翻译程序在设置时主要可分为时间词及翻译两个模块,其中,数词翻译模块可分为基数词、序数词、集合数词、概数词、次数、分数词、分配数词及语法特征8个模块,各模块均具有自动识别及翻译功能。在数词翻译程序中,各程序按数词类别区分为8个不同的模块,但各模块均为数词模块程序,具有一定的关联性,如部分分数词翻译模块应用时还需与基数词模块配合使用,根据相关研究可知,在相关翻译模块应用中,基数词模块该模块应用的基础;时间词翻译模块在应用时可分为3个小模块,分别为表示年份、表示月份及表示其他时间的数词翻译模块,若在应用时间词翻译模块时,其数词均由左向右逐字翻译且按相关规则对其翻译结果进行修改,这样能够保证翻译结果的准确性及有效性。
  3.蒙汉数词自动翻译程序应用及结果研究
  3.1程序应用 3.1.1开源工具。在对相关数据进行处理时,可采用蒙汉数词自动翻译模块进行处理与操作。在训练时,可将相关训练集、开发集及测试集等蒙古文进行大小写转化,展开缩略数词,开源解码器可选择Moses进行操作解码并对相关参数特征进行融合。3.1.2实验数据。本文研究所应用实验语料蒙汉平行语言为6.7万句对,取14万汉语句子用于语言模型训练,测试集取500句对蒙汉平行语料,数词及时间词句子共70条,语料均不重复,本次研究中所取蒙古文均对应不同专业翻译人员汉语翻译译文,可保证其相关准确性。3.1.3系统应用步骤。蒙汉数词自动翻译程序在蒙汉统计机器翻译后处理应用中,对未登录数词进行翻译可以提升翻译性能。先采用统计机器翻译系统实现对蒙古文源文的翻译,后在本文设计的相关基础程序之上实现对译文未登录数词的识别及翻译。3.1.4语料库预处理。在进行系统应用及相关语料库处理时,为保证相关测评质量,首先需对语料库进行相关预处理,其中主要包含蒙古文及汉语两部分语料库处理内容,其方法可采用大小写转换、双重格形态切分等。3.1.5解码。解码主要是对上述翻译中所得到的模型进行选择,其选择依据主要以最高得分为主,这一程序具有相对应用困难性,在对相关句子及数词进行翻译时,首先需找出相关数词进行翻译,在此基础上依照语言模型对其进行调试,最终得出概率最高翻译句子。3.1.6结果。在本次研究中,采用层次短语4-gram语言模型对相关源文进行翻译,然后在统计机器翻译的基础上得到译文,该译文中6个未登录数词,针对该数词可对程序翻译及原译文比较可知蒙汉数词自动翻译程序翻译未登录数词后期NIST测评值提升0.0318,BLUE提升0.0037,BLUE-SBP提升0.0018,且根据研究可知,在翻译中,其源文数词比例越大,提升效果越明显,故采用该程序可有效提升翻译效果,增强翻译准确性。
  结束语
  综上所述,蒙汉机器翻译作为应用广泛的翻译方法在我国蒙汉语言翻译中具有非常重要的作用,但就现阶段而言,由于蒙古文自身的特殊性、复杂性以及蒙汉统计机器翻译的缺陷性,导致蒙汉机器翻译准确性较低。针对此类问题,相关人员可借鉴语言学知识,在此基础上采用现代计算机技术实现对蒙汉机器翻译数词自动翻译系统的研究,不断改善机器翻译性能,提升翻译准确性。
  参考文献
  [1]乌日力嘎.西里尔蒙古文—汉文机器翻译系统的实现[D].内蒙古大学,2015.
  作者简介
  牛其其日乐格(1989.3)女,籍贯:黑龙江省大庆市杜尔伯特蒙古族自治县,现职称:翻译助级,学历:本科,研究方向:中国少数民族(蒙古)语言文学。
其他文献
随着我国经济的的发展与公共财政框架的建立,在原有经济形势下的国库管理制度显然已经不适合现在的经济形势了,所以,应针对我国现有的经济国情对国库的管理体制进行改变。
随着时代的发展和社会经济的进步,过去采用的生产型增值税逐渐的显露出越来越多的弊端,针对这个问题,我国税收进行了一次较大的改革,那就是由消费型增值税替代了过去的生产型增值
2002年世界环境日到来之际,深圳市获得了世界环保最高奖-“全球500佳”的称号.2002年“6@5”世界环境日国际纪念活动在深圳隆重举行,主题是“让地球充满生机--建我绿色家园”
在我国税收已经深入到经济社会生活的各个方面的大环境下,有效的进行企业税务筹划,可以减轻税收负担,获取资金以及时间,实现更好地企业效益。然而运用不当,则适得其反。本文对企业
因为国际市场正在不断的发展和扩张,很多国内的企业都在实行扩大经营的发展模式,以此来适应市场竞争的需要。而且在不同的地方设置分支机构的现象已经非常的普遍。本文就针对当
为深入贯彻落实党的十八大精神,根据上级党委关于加强基层党的建设的具体工作要求,笔者围绕新形势下如何加强基层党支部建设这个党建根本工作任务,进行了调研。可以说,基层党
在中国,国家安定、民族团结、经济发展很大程度上都依赖于行政事业单位的合理化运行,而在行政事业单位中,财务管理的职责又是至关重要的一个方面。财务管理功能是否健全将会关系
案情:A 公司2011年度处置一批不需用的固定资产,固定资产原价为420,000.00元,累计已计提折旧160,000.00元、减值准备120,000.00元。由于没有清理收入,则A公司本次清理账面净损失1
随着我县财政管理体制的不断深入,国库管理已经逐渐成为财政管理的一种方式。国库集中支付制度对我县事业单位资金使用效率以及提高财务信息质量有着重要作用,促进我县事业单位
营改增即是营业税改征增值税,这是我国在实现经济转型过程中一项十分重大的税收制度改革,它充分体现了我国社会主义经济发展的特色,该项制度首先在上海地区试运行,随着时间的推移