基于词典与HMM相结合的蒙古文最小词素编码到标准编码的转换研究

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:tawj68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,蒙古文信息处理的相关研究在自然语言处理领域中取得了很大进展。但是在蒙古文字符编码方面,很多蒙古文资料以及网站都没有采用统一的编码形式来进行信息的存储。这不仅不利于人们进行信息交流,也严重阻碍了蒙古文信息处理技术的发展。2000年ISO和Unicode技术委员会制定和出台了蒙古文标准编码字符集,这不仅有利于实现信息共享而且有利于蒙古文信息处理的标准化。目前大多数的各种形式的蒙古文单词编码都可以转换成最小词素编码,并且在这方面已经取得了很好的成绩,而将最小词素编码转换成标准编码的工作进展还很少。如何将单词最小词素编码更加准确的转换成标准编码是目前科研工作所关注的一个热点。为了实现蒙古文最小词素编码到标准编码的转换,本文主要做了以下几方面的工作:(1)利用词典进行编码转换,词典中有蒙古文单词最小词素编码以及相对应的标准编码。本文将词典分为整个单词的词典和词干+词缀的词典。然后将整个单词的词典进行了词性划分,词干+词缀词典进行了阴阳性的划分。(2)首先,通过应用隐马尔科夫模型实现了最小词素编码到标准编码的转换;其次,在隐马尔科夫模型中加入了数据平滑算法解决了零概率问题;最后,对于传统的隐马尔科夫模型在进行编码转换时未考虑后面编码字符的关联程度,这就使得前后相关编码信息丢失,于是本文将前后编码的关联信息加入到隐马尔科夫模型中,实现了二阶隐马尔科夫模型的编码转换。(3)通过将上述两种方法相结合进一步提高了蒙古文单词编码转换的正确率。本文利用150万的语料利用上述方法进行了多组实验对比。实验结果表明词典与隐马尔科夫模型相结合的方法最适合最小词素编码到标准编码的转换。与已有的方法相比,本文的方法提高了编码转换的准确率。
其他文献
随着国家经济的发展和铁路运输市场需求的进一步增长,对铁路运输装备提出了更高的要求。铁路车辆作为铁路运输的重要装备,其设计效率、安全性和可行性影响着我国铁路运输行业
随着Web数据库的不断增长,通过查询接口访问获得以HTML页面形式动态呈现的Web资源逐渐成为信息获取的主要手段,有效获取并集成分布在Web上的各数据库资源具有重要的现实意义
当前,是一个传媒业大变革的时代。新媒体、新技术的不断涌现,互联网“+”模式的推陈出新,移动媒体的快速崛起,使我们所处的信息环境和面对的媒体格局发生着空前的变化。为了
人脸图像包含丰富的信息,人们可以轻易地从人脸图像中提取出大量有用的信息,如身份、性别、年龄、感情表现、种族特征、健康状况等。目前人脸检测和识别的研究已经相对成熟,
通过运用事件相关电位技术,本文试图探究老年人和年轻人在利用语境信息进行语义加工时的脑神经机制差异。根据语义加工理论,语义加工的方式可分为融合性加工和预测性加工。融
目前的空天地通信系统基本处于相互独立的运行状态,不同网络之间的节点不能实现直接的业务互通,这不但造成了资源浪费,而且不能保证各种类型空天信息平台综合与实时应用的服
模板匹配在计算机视觉中有着广泛应用,如目标检测、目标跟踪、视频监控、图像拼接等。目前已有大量的模板匹配算法,其中Best-Buddies Similarity(BBS)是一种用于模板匹配的相
目的对健脾化湿法干预糖尿病前期的临床疗效及安全性进行系统评价;分析六君子汤组方治疗糖尿病前期的主要活性成分、关键靶标和信号通路,建立“有效成分-靶标-信号通路”之间的关系,探究该中药复方治疗糖尿病前期的多成分、多靶点和多途径作用机制,为临床应用奠定理论基础;探讨六君子汤组方对糖尿病前期(脾虚痰湿证)的血糖逆转和乏力的改善的临床疗效以及安全性的评价,以期广泛应用于临床。方法1.检索CNKI、万方、P
在实际应用当中,平面五杆机构会因负载变化而导致系统当中相应的参数发生变化。针对这一问题,本文由拉格朗日法得出动力学模型,给出了平面五杆并联机构的切换模型,并利用类Ly
随着时代的进步与互联网的迅速发展,对于建筑环境的预测和评估已经不能仅仅依靠人力与经验了,而需要专业的软件进行分析与计算。建筑全性能联合仿真平台软件是一款优秀的建筑