第五届机器翻译研讨会微软亚洲研究院技术报告

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:sunhaifeng112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要介绍微软亚洲研究院自然语言计算组参加2009年第五届全国机器翻译研讨会(CWMT2009)评测的情况。本单位参加了全部5个评测项目中的2个子项:汉英新闻领域单一系统和汉英新闻领域系统融合两个评测项目。文章将简要介绍本单位统计机器翻译系统的实现框架以及阐述它们在评测数据上的性能表现,并针对结果加以适当分析。
其他文献
依据旧有字书的训释进行同义换训称做“转训”,转训是古今字书普遍运用的一种训释方法。本文在列举《汉语大字典》、《中华字海》两部大型字书存在的各种转训问题的基础上,指出大型字书的编纂与修订在使用转训时应当格外慎重,以免造成错误训释或以讹传讹。
在信息网络化时代,哈萨克文信息处理技术也应跟上中国其他民族语言文字信息处理发展的步伐,为尽早实现完整的中文信息处理平台尽力尽责。
藏文语料的编码转写在藏文信息处理中必不可少。本文建立了一种基于藏文国际标准字符集的编码转写系统,包括传统藏文的拉丁转写和拉丁转写还原成传统藏文两个部分。文中分析了藏文拉丁转写和拉丁转写还原成传统藏文两个过程中出现的歧义问题,提出了解决方案,给出了转写流程图,最终实现了藏文语料编码转写系统。测试结果表明藏文语料编码转写系统达到了转写要求。
本文介绍了国内外主要藏文系统的编码方案,并根据三种不同类型的编码结构,对非标准藏文编码到国家标准(GB18030)的转换,国家标准和国际标准(ISO/IEC10646)之间的相互转换进行了详细阐述,并在vista平台下实现了转码程序,为藏语信息交换处理提供方便宜用的工具,为藏文信息的进一步研究奠定了基础。
西双版纳新傣文的字符和标点符号依据其文字真实使用状况,还需要进一步规范。首先新傣仂文字符设计时应该遵循顶线原则,其次字符的具体形状应该正确,再次标点符号应该与汉字的一致。另外根据新傣仂文与国际音标的对应关系,再进一步设计字符的键盘布局。
语音语料是人类非常重要的语言资源之一。目前世界范围内已有很多国家建立了语音语料库,并采用高新技术手段进行相关研究,取得了众多的成果。蒙古族是世界民族的重要组成部分,有自己的语言文字,在人类历史上留下灿烂的一页,是人类文明的重要组成部分。我国政府非常重视少数民族语言文字资源的建设,在国家高技术研究发展计划863课题《多语言基础资源库研制和共享》中安排了蒙古语、藏语、维吾尔语语音库、语料库的建立计划。
在分析了民族语言电子邮件过滤所遇到的技术问题之后,提出了基于机器翻译的民族语言垃圾电子邮件过滤系统,经过对邮件正文进行文本解码,翻译,垃圾邮件识别三大步骤,在一定程度上解决了民族语言垃圾电子邮件的过滤问题,为垃圾邮件过滤提供了有益的探索。
本文介绍了机器翻译评测的基本原理以及常用评测标准,包括人工评测方法、基于n元匹配的BLEU和NIST自动评测方法、基于准确率和召回率的GTM评测方法以及若干引入了语言知识的自动评测方法。文章还介绍了国内外几个著名的机器翻译评测项目,同时讨论了评测对于机器翻译的研究与发展所起的重大推动作用。
以计算技术和语料库为基础的统计机器翻译方法,提高了语言翻译自动化程度。在汉蒙统计机器翻译中,由于源语言与目标语言存在着的差异,单纯应用统计机器翻译方法进行汉语到蒙古语的翻译,导致译文中出现的词形错误等问题,因为汉语属于形态缺乏的语言,而蒙古语却是形态非常丰富的语言,在从汉语对应蒙古语时会出现一种汉语形式对应多种蒙古语形式的情况。针对这种情况,本文提出利用目标语言的形态信息构造统计模型的研究方案。该
为了全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,按照惯例,第五届全国机器翻译研讨会((CWMT2009)继续组织了统一的机器翻译评测,以推进参评单位的实质性交流和机器翻译技术的发展。本文给出了此次评测的组织、准备过程及结果。为国内外研究单位在机器翻译方面的进一步研究提供了数据。