蒙古语词法标注语料库的构建及相关技术研究

来源 :内蒙古大学 | 被引量 : 16次 | 上传用户:swatsee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着统计方法在自然语言处理中的广泛应用,语料库语言学已经成为一个十分引人注目的研究方向。语料库语言学已经成为语言研究的主流。基于语料库的自然语言处理需要对原始的语料进行不同层次的加工,才能从中获取所需的语言知识。词法标注是语料库最基本的加工,蒙古文信息处理工作的词处理阶段,词法标注是多项后续工作的基础。如:词汇和词尾的统计,各种词典的编制,进行句处理,篇章处理等都需要以正确的“切分标注”为基础。本论文围绕蒙古语的词法标注,研究了相关的技术问题。首先对20万词级词法标注语料库进行了人工校对,对其存在的问题提出了具体的解决方案;其次,利用规则方法改进了基于统计的Mglex词法分析器。实验结果表明,统计和规则相结合的Mglex系统,得到了令人满意的切分标注结果:以20万词级词法标注语料库为训练语料,系统的消歧率从原来的84.6%提高到90.1%;系统的正确率由原来的93.5%提高到97.7%。
其他文献
米万钟是中国书法史上的一位杰出的大书法家,其伟大的人格和丰厚的学养为后人树立了优秀的榜样。但是,由于种种原因,我们对米万钟其人、其书的认知是浮浅的,更有一些人站在孤
目的:通过通痹颗粒联合甲氨喋呤对老年RA肝肾亏虚、痰瘀阻滞证患者的临床观察,探讨它们的临床疗效和安全性。方法:将60例老年RA患者随机分为治疗组和对照组,每组30例,治疗组予
本文所研究的连词非连词用法是连词在实际运用中的一种用法的偏离,是临时获得的,是语境所赋予的。连词在其原有的语法功能和表达功能的基础上,获得了新的意义,这样的表达或被引申
极化SAR图像分类问题是极化SAR图像理解与解译中的研究重点,其目的是确定每个像素所属的类别,例如海洋、城市、森林等。极化SAR图像分类对于民生与军事等诸多领域有着较为广
招商引资是新时期加快推动我国产业转型升级的重要方式,也是各地实现经济社会高质高效发展的重要手段。但是,伴随着经济发展进入新常态,以及供给侧结构性改革的深入推进,尤其是“新旧动能转换”这个国家战略的提出和推广,传统的以政府为核心的招商引资策略已经难以适应新时期的发展要求,弊端逐渐显现。济南是山东省省会,国务院批准的沿海开放城市,中国环渤海地区南翼的中心城市,我国十五个副省级城市之一,山东省的政治、经
构建现代产业体系的基础能力反映了一个地区发展现代产业体系的综合动力和发展潜力。提高本地区构建现代产业体系的基础能力,是发展现代产业体系的有力保证。本文运用因子分
在日常的交际过程中,我们把话语传递的信息称为言语信息,言语信息有真实和虚假之分即言语真实信息和言语假信息,国内外不同的学者从不同的角度用不同的理论对言语信息进行了
目的 以苯甲酸为原料,经4步反应合成一系列N-取代苯基-5-取代苯基-3H-1,2,4-三氮唑-3-硫酮化合物并研究其抗菌活性。方法 基于课题组前期对新型潜在三唑类抗菌化合物6h的作用
针对机器人在外力作用下由结构变形引起的制孔位置沿工件表面滑移问题,研究应用机器人制孔的自由度冗余特性,通过优化机器人制孔姿态抑制末端位置滑移,提高机器人的定位精度.
辰河高腔是湖南省地方戏曲代表,属于国家级非物质文化遗产,具有丰富的历史文化意蕴和独特的戏曲音乐价值,将辰河高腔作为本土音乐教育资源纳入到学前教育艺术课程体系,具有重