蒙古文语料编码转换与校对方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:hezefgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今信息现代化的时代,信息的传播、资源的共享也都被电子化、网络化。大部分信息都是以文字形式传播和共享。对蒙古文信息而言适应信息时代发展要求是必然的。随着蒙古文信息处理的发展出现了多种蒙古文编码,例如赛音、蒙科立、明安图、智能编码等。各种编码字库中,蒙古文字形的对应的编码都不一样,互不兼容,如果没有安装对应的蒙古文字库,计算机里的蒙古文资料将显示为乱码,不能使用。这样会导致蒙古文信息资源无法传播、共享和研究。解决这些问题的最有效方法就是编码转换,转换成统一的编码。本文由蒙古文编码转换和编码校对两大部分构成。编码转换部分中,首先对目前应用较广泛的两种编码-蒙科立编码、智能编码以及蒙古文国际标准编码进行了详细的分析和对比。其次将蒙科立编码、智能编码两种编码转换为蒙古文国际标准编码。编码转换为基于蒙古文变形显现字符集和控制字符使用规则的一种转换方法。编码转换过程中,先通过编码范围判断和编码在词中不同位置的词形判断编码类型。编码类型确定之后,如果是蒙科立编码则用蒙科立编码转换为标准码的算法将其转换为标准编码。如果是智能编码,则用智能编码转换为标准编码的算法将其转换为标准编码。非标准蒙古文编码,例如蒙科立编码、智能编码都属于形码。标准编码为音码。转换成标准编码时,由于这些编码并不是与国际标准编码一一对应,有大量的不确定因素,做不到完全正确的编码转换,会出现错误编码。另外键盘录入也会产生编码错误。因此要对转换后的标准编码或者录入产生的蒙古文国际标准编码进行校对。本文的编码校对是基于蒙古文元音阴阳和谐规则的校对方法。校对规则为同一字中阴阳元音不能混合出现。即词中第一个出现的元音为阳性元音,则词中后续出现的元音也是阳性。词中第一个出现的元音为阴性元音,则词中后续出现的元音也是阴性。否则将错误编码替换为对应的正确编码。编码校对实现过程中,用判断元音辅音的算法判断当前编码是元音还是辅音;用判断元音阴阳性算法判断元音的阴阳性;词中第一个出现的元音用获取第一个元音的元音的算法得到;利用获取正确元音错误元音算法对后续出现的原因进行判断,最后用校对单词算法将错误编码替换为为正确编码。
其他文献
针对如何提高低速直驱双凸极发电机效率的问题,研究了一种多转子极电励磁双凸极发电机新结构,推导了该发电机定子极数与转子极数配合关系,给出了多转子极DSEM定子极宽与定子
外债统计监测系统、国际收支统计体系、银行结售汇统计从不同数据来源反映了直接外债的流动和变动,但由于一些主客观原因,使三者对外汇债务流的统计存在较大差异,本文试图通过对
中国综合社会调查(2010CGSS)显示,近90%的农民近期无进城定居和置房计划,仅有10%左右的农民有进城计划,这意味着目前生活在乡村的农民大多没有主动城镇化的意愿。对这一现象,可用乡村
背景肾病综合征由多种病因引起,以肾小球滤过膜通透性明显增加为特点,临床表现为大量蛋白尿(>3.5g/24h)、低白蛋白(<30g/L)血症、高脂血症和水肿。其中以大量蛋白尿为主要特征,大
本文首先探讨了机械加工工艺流程和加工路线制定对零部件加工精度的影响,并分析了机械加工工艺与零部件精度的关系,最后总结了几点机械加工工艺中对零部件精度影响的具体方面
马斯洛需要层次理论是比较有代表性的需要理论,对于个人和社会的发展都具有重要的意义,并且对我们当今的思想教育工作有一定的启示。
捷联惯导姿态算法是捷联惯导算法的核心。针对陀螺输出为角增量的情况,设计了旋转矢量多子样算法,并基于圆锥运动环境下,提出了旋转矢量多子样算法。以工程应用为背景,选择采
<正>近期,在加拿大西蒙弗雷泽大学比迪商学院的麦克·法威利·马切斯和克莱格E.N.艾贝开展一项新的学术研究,研究结果表明:审计师与被审计公司的首席财务官曾服务于相同的会
品牌作为企业参与全球竞争的重要资源备受企业界和研究者关注,品牌资产更是评价企业品牌长期积累效果的重要变量。在文献梳理和元分析研究的基础上,本文尝试将构成品牌资产的
禽呼肠孤病毒(avian reovirus,ARV)是引起禽类常见传染病鸡病毒性关节炎的主要病原。近年来该病在我国呈上升趋势发展,毒株变异性大,传统疫苗株对其保护效果不理想,影响了我