西里尔和传统蒙古文的形态和转换系统研究

来源 :内蒙古大学 | 被引量 : 3次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古族以前使用过若干个文字,但是目前主要使用传统蒙古文、西里尔蒙古文和托(?)文。本文旨在研究传统蒙古文和西里尔蒙古文的信息化技术,该信息化技术一是指研究传统蒙古文和西里尔蒙古文之间的文字转化,二是研究传统蒙古文和西里尔蒙古文的形态即词法。本文绪论中详细介绍了上述研究工作的意义、目的和目标。将计算机技术与蒙古学研究相结合已经成为研究蒙古文计算语言学的必然趋势。尽管在蒙古国内已有相关公司及个人在此领域从事相关研究工作并研发了一些相关的应用程序,但上述应用程序的研发水平尚不能与发达国家的相关研究水平相媲美。鉴于此,本人致力于研究西里尔蒙古文和传统蒙古文的信息化技术。在这项工作中,我们试图从形态分析西里尔蒙古文和传统蒙古文,并利用蒙古文构词规则研究了西里尔蒙古文和传统蒙古文的相互转换问题。这个过程包含以下两个步骤:首先,从形态分析西里尔蒙古文或传统蒙古文语义,找出词干和后缀;然后,将它们转换成对应的传统蒙古文或西里尔蒙古文词干和后缀,并利用构词规则生成对应的传统蒙古文或西里尔蒙古文。本文完成的主要研究工作如下:1.本文研究了西里尔蒙古文和传统蒙古文的相关特点,从而试图将二级形态的模型(Two Level Morphology Model)应用在蒙古文当中。从计算语言学角度考虑,西里尔蒙古文和传统蒙古文有着很多相似之处,也有一些不同之处。目前,西里尔蒙古文的书写规则有66大类。传统蒙古文确只有3项书写规则,即元音和谐规则、辅音规则、连接音规则。蒙古文是粘着语,是词干加后缀的形式生成新词的。在词干和后缀缀接方面,西里尔蒙古文和传统蒙古文也有不同之处,这是因为书写规则不同而导致。根据上述情况,本人研究了名词和动词的生成和解析模型,同时研究出词干加构形后缀的规则,并找出了词干加多个构形后缀的所有可能。2.完成上述工作后建立对应资源库的工作显得十分紧迫。资源库是继续开展西里尔蒙古文和传统蒙古文相互转换工作的基础。该资源库包括词干资源库、形态资源库和附加资源库。蒙古文词干后缀加构形后缀后可以生成大规模的蒙古文单词,所以本人选用词干作为资源库的基本单元,主要优点是:资源库的数据不会太大;加快应用程序的运算速度;可以确定词汇生成规则,进而掌握生成某种词汇的所有可能。词干资源库包含3个子库:西里尔蒙古文和传统蒙古文对应词干库,并包含单词解释(包含72000词条);带有词性标注的西里尔蒙古文和传统蒙古文对应词干库(包含61000词条);由词干编码,词汇生成、词汇解析编码组成的资源库(48000条)。形态资源库包含2个子库:西里尔蒙古文和传统蒙古文对应构形后缀库(包含86词条);多个构形后缀缀接条件库(包含876词条)。附件资源库包含2个子库:专有名词库(包含9135条);缩略语库(包含1100条)。3.根据二级形态的模型及“有穷自动机”制作出西里尔蒙古文和传统蒙古文书写规则模型。根据该模型对单词的构成进行分析,并做了西里尔蒙古文和传统蒙古文相互转换试验。PC-Kimmo是用于词形分析的开源系统,它由两个组成部分,即词汇形式和规则形式。本文以PC-Kimmo为工具制作完成了西里尔蒙古文和传统蒙古文相互转换模型。本文将词汇分成了名词和动词两大类,并分别建立了名词生成模型和动词生成模型。本人将西里尔蒙古文和传统蒙古文书写规则分别制作了模型,并利用该模型及资源库建立了西里尔蒙古文和传统蒙古文相互转换系统,并把该系统命名为KIM_MON(第一版)。该系统能够为用户解析、研判、生成词汇并将最终结果告知用户。4.最后,利用KIM_MON系统进行了蒙古文词法分析的实验工作。实验结果表明:当我们对西里尔蒙古文和传统蒙古文的形态分析时,正确率达到了97.6%。在正确分析蒙古文形态基础上KIM MON能够100%的正确的连接单词。在词法研究工作的基础上,我们对西里尔蒙古文和传统蒙古文相互转换工作进行实验,实验结果表明:从西里尔蒙古文到传统蒙古文的转换准确率达到了91.3%,从传统蒙古文到西里尔蒙古文的转换准确率达到了89.1%。在西里尔蒙古文的词同义不同单词的转换实验中,准确率达到了86.9%。并且通过实验得出,随着训练数据的增多会提高词同义不同单词的转换准确率。
其他文献
语言输入假设、输出假设和吸收假设是二语习得理论的重要组成部分。从发展时间来看,先有输入假设,后有输出假设,最后提出吸收假设,后者是前者的升华。考虑到三者之间的逻辑联系,本
城市的快速发展,越来越重视科技设施的建设,科技馆作为科技设施的一项内容,对国民的科技文化素质起着重要影响。科技馆要想取得更大效益,首先要提高自身的服务水平。通过对如何提
随着新时期高校图书馆工作内容和服务方式的不断发展变化,人力资源管理模式只有不断创新才能适应高校图书馆现代化发展需要。本文深入分析高校图书馆人力资源管理现状及创新改
城市道路是城市空间及各功能区连接的枢纽.在新时代的背景下,我国城市经济得到了空前发展,原有城市道路横断面设计已不能适应新形势发展需要.因此,研究城市道路横断面形式确
本文在EPMM的基础上,建立了以CCS为主要形式工具的软件演化过程的元模型CEPMM,它以任务不可分割为前提,支持软件演化过程全局层、过程层和活动层的形式建模与验证。本文致力
在如今,时代的进步促使水文资料的运用得到普及,进一步的对水文资料的精确程度以及便捷程度的要求变高。加之当今社会发展,科学技术的发展,对水文资料的需求日益增加,也对它的精确
如何在新课改过程中进一步懂得和掌握学生的性格特点,成为一名会管理的合格的班主任,是摆在班主任面前的一个不容忽视的课题。班主任工作是学校教育管理工作的基础,因此要求班主
为确保库尔勒石化产业园建设,对工业园区水资源现状及开发利用潜力进行分析,以区域水资源配置格局为前提,在深入分析产业园用水需求的基础上,利用水平衡分析方法,从区域角度
经济法是关于社会整体经济利益分配之法,经济法所调整的社会整体经济利益的权衡、确认和保障活动实质上是一种利益的再分配活动。经济法的利益再分配功能首先体现在其对经济
空间数据挖掘(Spatial Data Mining,SDM)是指从空间数据库中抽取隐含知识、空间关系或非显式存储在数据库中有意义的特征或模式。该技术在理解空间数据、获取空间与非空间数据