论文部分内容阅读
如今信息现代化的时代,信息的传播、资源的共享也都被电子化、网络化。大部分信息都是以文字形式传播和共享。对蒙古文信息而言适应信息时代发展要求是必然的。随着蒙古文信息处理的发展出现了多种蒙古文编码,例如赛音、蒙科立、明安图、智能编码等。各种编码字库中,蒙古文字形的对应的编码都不一样,互不兼容,如果没有安装对应的蒙古文字库,计算机里的蒙古文资料将显示为乱码,不能使用。这样会导致蒙古文信息资源无法传播、共享和研究。解决这些问题的最有效方法就是编码转换,转换成统一的编码。本文由蒙古文编码转换和编码校对两大部分构成。编码转换部分中,首先对目前应用较广泛的两种编码-蒙科立编码、智能编码以及蒙古文国际标准编码进行了详细的分析和对比。其次将蒙科立编码、智能编码两种编码转换为蒙古文国际标准编码。编码转换为基于蒙古文变形显现字符集和控制字符使用规则的一种转换方法。编码转换过程中,先通过编码范围判断和编码在词中不同位置的词形判断编码类型。编码类型确定之后,如果是蒙科立编码则用蒙科立编码转换为标准码的算法将其转换为标准编码。如果是智能编码,则用智能编码转换为标准编码的算法将其转换为标准编码。非标准蒙古文编码,例如蒙科立编码、智能编码都属于形码。标准编码为音码。转换成标准编码时,由于这些编码并不是与国际标准编码一一对应,有大量的不确定因素,做不到完全正确的编码转换,会出现错误编码。另外键盘录入也会产生编码错误。因此要对转换后的标准编码或者录入产生的蒙古文国际标准编码进行校对。本文的编码校对是基于蒙古文元音阴阳和谐规则的校对方法。校对规则为同一字中阴阳元音不能混合出现。即词中第一个出现的元音为阳性元音,则词中后续出现的元音也是阳性。词中第一个出现的元音为阴性元音,则词中后续出现的元音也是阴性。否则将错误编码替换为对应的正确编码。编码校对实现过程中,用判断元音辅音的算法判断当前编码是元音还是辅音;用判断元音阴阳性算法判断元音的阴阳性;词中第一个出现的元音用获取第一个元音的元音的算法得到;利用获取正确元音错误元音算法对后续出现的原因进行判断,最后用校对单词算法将错误编码替换为为正确编码。