论文部分内容阅读
多民族语言机器翻译的研究对维护我国民族地区的社会稳定和接受兄弟民族的先进技术、加强各民族交流、传承并发展民族文化等都具有极为重要的意义。西里尔蒙古文-汉文机器翻译研究面临语言类型跨度大、语言现象复杂、语言资源缺乏、少数民族语言信息处理基础技术薄弱等问题。其中复杂形态语言机器翻译建模、资源缺乏语言的机器翻译等问题也是机器翻译研究本身面临的重要学科问题。本文利用收集整理的多语言语言资源、知识资源及开源工具搭建了蒙汉统计机器翻译平台。在该研究中,为了提高基于统计的西里尔蒙古文-汉文机器翻译的性能和解决译文中出现的大量的未登录词,本文从以下几个方面进行了研究和实验:(1)建立近22万余句对的西里尔蒙古文-汉语双语语料库,在建立双语语料库的具体过程中拟定了西里尔蒙古文-汉语双语语料库建设标准。(2)建立西里尔蒙古语语料库的预处理步骤:如编码统一转换为UTF-8格式,缩略语转写,大小写转换等。(3)通过加入蒙-汉人名词典、地名词典及拼写数词、时间词的正则表达式规则来识别与翻译对命名实体进行有效的翻译。(4)对蒙古语格附加成分、复数词缀、领属附属附加成分的双重格进行详细分析,并进行粗粒度切分。其中命名实体的识别与翻译技术是提高蒙汉机器翻译的翻译正确率和有效解决未登录词以及进行蒙古文信息处理后续工作的重要基础。机器翻译中词语的歧义和未登录词是两大瓶颈,词语的歧义可以根据文章上下文进行区分;未登录词包括新名词术语和人名、地名、机关单位名称等命名实体。西里尔蒙古语中的歧义词有一部分为带有双重格的常用词。本文以基于短语的统计机器翻译为基础,着重研究解决粒度相适应的线性词语表示形式的机器翻译建模、非线性词语表示形式的机器翻译建模、面向资源缺乏语言的人机结合的机器翻译知识获取、蒙古文信息处理基础技术、语言资源库建设等问题,最终建立一个面向政府文献和日常用语两个领域的西里尔蒙古文-汉文的机器翻译系统。在收集整理双语语料库的基础上,我们利用根据开发集、测试集过滤后的训练集作为最终的训练集。并使用此训练集的目标语言端—汉语端训练了语言模型。我们在上述研究的基础上实现了西里尔蒙古文-汉文机器翻译系统并进行了评测实验。我们建立机器翻译项目的自动评测测试集的1000个句子,一份原文(西里尔蒙古文)、四份目标语言端句子(汉文)为参考答案。机器翻译项目的自动评测采用BLEU-SBP为评测指标。使用本系统进行翻译后的结果进行了评价,结果表明双语语料库的规模与语料库预处理是提升翻译质量的一种捷径。利用开源工具Moses系统实现了基于短语的蒙汉统计机器翻译系统。通过实验证明开源Moses系统实现的蒙汉统计机器翻译系统具有可行性。但是该蒙汉机器翻译系统还有很多方面需要改善和提高,比起高质量的机器翻译系统还存在许多不足之处,将会在今后的研究中不断的改善和完善。