论文部分内容阅读
蒙古族以前使用过若干个文字,但是目前主要使用传统蒙古文、西里尔蒙古文和托(?)文。本文旨在研究传统蒙古文和西里尔蒙古文的信息化技术,该信息化技术一是指研究传统蒙古文和西里尔蒙古文之间的文字转化,二是研究传统蒙古文和西里尔蒙古文的形态即词法。本文绪论中详细介绍了上述研究工作的意义、目的和目标。将计算机技术与蒙古学研究相结合已经成为研究蒙古文计算语言学的必然趋势。尽管在蒙古国内已有相关公司及个人在此领域从事相关研究工作并研发了一些相关的应用程序,但上述应用程序的研发水平尚不能与发达国家的相关研究水平相媲美。鉴于此,本人致力于研究西里尔蒙古文和传统蒙古文的信息化技术。在这项工作中,我们试图从形态分析西里尔蒙古文和传统蒙古文,并利用蒙古文构词规则研究了西里尔蒙古文和传统蒙古文的相互转换问题。这个过程包含以下两个步骤:首先,从形态分析西里尔蒙古文或传统蒙古文语义,找出词干和后缀;然后,将它们转换成对应的传统蒙古文或西里尔蒙古文词干和后缀,并利用构词规则生成对应的传统蒙古文或西里尔蒙古文。本文完成的主要研究工作如下:1.本文研究了西里尔蒙古文和传统蒙古文的相关特点,从而试图将二级形态的模型(Two Level Morphology Model)应用在蒙古文当中。从计算语言学角度考虑,西里尔蒙古文和传统蒙古文有着很多相似之处,也有一些不同之处。目前,西里尔蒙古文的书写规则有66大类。传统蒙古文确只有3项书写规则,即元音和谐规则、辅音规则、连接音规则。蒙古文是粘着语,是词干加后缀的形式生成新词的。在词干和后缀缀接方面,西里尔蒙古文和传统蒙古文也有不同之处,这是因为书写规则不同而导致。根据上述情况,本人研究了名词和动词的生成和解析模型,同时研究出词干加构形后缀的规则,并找出了词干加多个构形后缀的所有可能。2.完成上述工作后建立对应资源库的工作显得十分紧迫。资源库是继续开展西里尔蒙古文和传统蒙古文相互转换工作的基础。该资源库包括词干资源库、形态资源库和附加资源库。蒙古文词干后缀加构形后缀后可以生成大规模的蒙古文单词,所以本人选用词干作为资源库的基本单元,主要优点是:资源库的数据不会太大;加快应用程序的运算速度;可以确定词汇生成规则,进而掌握生成某种词汇的所有可能。词干资源库包含3个子库:西里尔蒙古文和传统蒙古文对应词干库,并包含单词解释(包含72000词条);带有词性标注的西里尔蒙古文和传统蒙古文对应词干库(包含61000词条);由词干编码,词汇生成、词汇解析编码组成的资源库(48000条)。形态资源库包含2个子库:西里尔蒙古文和传统蒙古文对应构形后缀库(包含86词条);多个构形后缀缀接条件库(包含876词条)。附件资源库包含2个子库:专有名词库(包含9135条);缩略语库(包含1100条)。3.根据二级形态的模型及“有穷自动机”制作出西里尔蒙古文和传统蒙古文书写规则模型。根据该模型对单词的构成进行分析,并做了西里尔蒙古文和传统蒙古文相互转换试验。PC-Kimmo是用于词形分析的开源系统,它由两个组成部分,即词汇形式和规则形式。本文以PC-Kimmo为工具制作完成了西里尔蒙古文和传统蒙古文相互转换模型。本文将词汇分成了名词和动词两大类,并分别建立了名词生成模型和动词生成模型。本人将西里尔蒙古文和传统蒙古文书写规则分别制作了模型,并利用该模型及资源库建立了西里尔蒙古文和传统蒙古文相互转换系统,并把该系统命名为KIM_MON(第一版)。该系统能够为用户解析、研判、生成词汇并将最终结果告知用户。4.最后,利用KIM_MON系统进行了蒙古文词法分析的实验工作。实验结果表明:当我们对西里尔蒙古文和传统蒙古文的形态分析时,正确率达到了97.6%。在正确分析蒙古文形态基础上KIM MON能够100%的正确的连接单词。在词法研究工作的基础上,我们对西里尔蒙古文和传统蒙古文相互转换工作进行实验,实验结果表明:从西里尔蒙古文到传统蒙古文的转换准确率达到了91.3%,从传统蒙古文到西里尔蒙古文的转换准确率达到了89.1%。在西里尔蒙古文的词同义不同单词的转换实验中,准确率达到了86.9%。并且通过实验得出,随着训练数据的增多会提高词同义不同单词的转换准确率。