基于国际标准编码的蒙古文词切分系统构建

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:tomb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古族历史与文化源远流长,蒙古族的语言文字是蒙古族社会交际的工具。在当今信息化、全球化大背景下,蒙古语言文字的信息化对促进蒙古语言文字的学习、使用、研究和发展具有重要意义。蒙古文词切分是蒙古文词法分析、机器翻译、信息检索、文本分类、篇章处理等众多工作的基础和前提。由于历史、地域、文化等诸多原因,导致多种蒙古文编码共存,从而使得大量信息资源无法共享。蒙古文国际标准编码的问世结束了原来的多种蒙古文编码在应用中各自为政的历史,但由于国际标准编码为基础的研究才刚刚起步,大量的基础性的工作急需启动和研究,因此,本文围绕蒙古文切词问题,开展了以下工作:首先,本研究整理和校对了110万词的国际标准编码的蒙古文语料及文档资料库,这些资料可作为蒙古文信息处理后续工作的基础性资料。其次,深入研究了蒙古文构词法的特点,并提出考虑了语境关系和词内各成分高耦合度的词切分模型。同时深入研究了蒙古文构词法的特点及蒙古文语境关系,并提出了相应的机器学习方法以提高系统切分蒙古文词的精度和速度。此外,对基于国际标准编码的蒙古文词切分模型进行了分析和比较研究,提出了15种蒙古文词切分方法的评价方法和有效性计量公式。另外,给出了基于国际标准编码的蒙古文词切分系统的设计方法和整体框架。最后,完成了基于国际标准编码的蒙古文词切分软件系统和结果分析。基于蒙古文国际标准编码的蒙古文词切分系统不仅把蒙古文信息处理工作引入到国际标准编码为基础的研究领域,同时也为蒙古文信息处理工作提供了标准化的蒙古文资源,因此,本文的工作对促进蒙古文信息化工作具有一定的意义。
其他文献
随着Flickr、Facebook等社交网站的流行,图像资源正在以惊人的速度不断增长,如何从海量的图像中快速有效地提取用户所需要的资源已成为人们工作和生活中必须解决的关键问题。
多光谱图像配准是将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配。多光谱序列图像提供了比单一图像更丰富的信息,因此研究多光谱序列图像的
随着信息产业的快速发展,人们对信息安全的要求越来越高,特别是随着电子商务的兴起,使得信息的加密、认证以及安全传输等变得尤为重要。消息认证码(Message Authentication C
深度学习(Deep Learning)目前被广泛应用在很多科研领域,并且在工业生产中也得到了很多的应用,都取的了很多不错的效果。最近几年,深度学习算法的研究非常热门,已经有研究人
顺应三网融合快速发展,酒店原客房电视系统已经发生质的变化,从“看”电视,转变成“用”电视,目前成为新一代智能电视系统的标准功能,它为酒店提供数字化、智能化及个性化服务带来
随着汽车电子在汽车工业的应用逐渐深入,以汽车电子为基础的车载信息娱乐系统(IVI)已成为现代汽车不可或缺的组成部分。然而现有的各类IVI却存在着诸多不足:系统封闭、代码闭
随着Web服务技术的发展,越来越多的浏览器/服务器(Browser/Server,B/S)结构和客户机/服务器(Client/Server,C/S)结构的应用系统被用于政府信息化建设、信息系统和商业流程中,但是这两
随着我国高等教育事业的发展,高校毕业生数量逐年增长,高校毕业生的就业问题已经引起社会及相关学者的广泛关注。如何通过科学合理的方法为毕业生提供就业指导和帮助,提高毕
支持向量机(Support Vector Machines,SVM)是基于统计学习理论,建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到
伴随互联网信息资源规模的迅猛增长,用户要在海量信息空间中获得符合自己需求的信息也越发困难。推荐系统作为一种智能个性化信息服务系统,为用户推荐用户感兴趣的信息资源。推