【摘 要】
:
文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古文使用过程中存在的文本错误问题,本文提出了以音节分析为基础,融合统计特征和蒙古文构词规则的方法,并利用混淆集实现了蒙古文文本的自动校对。本文在蒙古文音节的基础上进行了文本校对的相关研究。首先,本文通过对蒙古文音节切分建立了音节混淆集,并实现了蒙古文真词混淆集的自动生成,然后利用人
论文部分内容阅读
文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古文使用过程中存在的文本错误问题,本文提出了以音节分析为基础,融合统计特征和蒙古文构词规则的方法,并利用混淆集实现了蒙古文文本的自动校对。本文在蒙古文音节的基础上进行了文本校对的相关研究。首先,本文通过对蒙古文音节切分建立了音节混淆集,并实现了蒙古文真词混淆集的自动生成,然后利用人工补充完善混淆集。在此基础上,本文利用网络爬虫获取相关网络语料,建立了单词级语言模型,实现了蒙古文的真词错误的文本校对。其次,本文在音节的基础上,结合蒙古文构词规则和音节语言模型实现了蒙古文的查错过程,然后利用融合统计特征的音节混淆字典和混淆音节的归一化概率实现了蒙古文的非词错误的校对过程。在蒙古文单词的单字符增减替换方面,相比于基于中间码的校正系统,本文所提出的方法各方面的性能都有所提升。最后,本文利用融合蒙古文文本的上下文语境的方法改善了蒙古文真词错误的校对算法,然后,通过联合本文的校对方法实现了对蒙古文的非词错误与真词错误的校正。本文利用蒙古文音节的特点建立音节与真词混淆集实现了对蒙古文非词错误与真词错误的查错与纠错。本实验在取得了不错的效果的同时,也为蒙古文的文本校对提供了新思路。
其他文献
猪是我国最主要的产肉农业动物,因其器官在解剖学上位置、大小与人相似,也是研究人类的重要试验动物。猪有优秀的饲料转化率,饮食的摄入可能会导致肥胖,而肥胖表现为脂肪的堆
目的:研究趋化因子CCL2的表达和变化与口腔鳞癌发生发展的关系。方法:收集2018年6月至2019年1月期间于湖南省肿瘤医院头颈外一科进行手术的部分符合筛选条件的口腔鳞癌患者,
目的本文拟根据生物黏附给药系统的特点,完善黄连提取工艺条件,提高黄连总生物碱的提取率,将黄连总生物碱入药制备成生物黏附栓剂,以期为黄连总生物碱治疗假丝酵母菌性阴道炎
目的:叶酸与B族维生素干预以改善老年认知功能障碍患者症状的临床研究颇多,但各研究结果不一致。本研究旨在系统评价补充叶酸与B族维生素对老年认知功能障碍的疗效和安全性。
目的:清代著名医家傅青主外科学代表著作《青囊秘诀》以内治立论,全书以98方治之(仅两方外治方),在治疗外科疾病中别具匠心。本文运用现代数据挖掘方法对《青囊秘诀》中所用
如今,恶性肿瘤作为危害人类健康的主要问题之一,受到医学界和科学界的广泛关注。目前临床上治疗肿瘤的手段大致分为三类:化学治疗、放射治疗以及外科手术治疗,其中的化学治疗
在众多抗癌纳米试剂中,像纳米簇或者量子点这样尺寸较小的纳米试剂,可以通过肾脏代谢清除,具有较高的生物安全性,被广泛用于肿瘤诊疗中。然而,这类纳米试剂因尺寸较小,肾脏可
我们生活在一个文化传播的时代。20世纪最伟大的成就之一就是文化传播对人类社会和生活的全面渗透。到了21世纪,文化传播成为了文化研究最重要的主题和中心视角之一。文化传
目的:多项研究证明大豆异黄酮(Soybean isoflavones,SIF)能对肥胖相关疾病具有治疗作用,但其对肥胖雄性生殖系统的影响不明确。所以本实验旨在研究SIF对高脂饮食诱导肥胖大鼠
由于研究对象的复杂性和多样性,以及随机抽样的时间性,要使某随机变量满足给定分布函数或者密度函数的假设是非常困难的.在拟合实际数据时,需要更加丰富的统计分布类,使得构建的新模型能够更好的刻画相应的实际问题.本文使用两种方法构建混合统计模型:一种是两个分布加权和,一种是根据T-X变换法.然后给出这些统计分布的相关性质,包括混合分布的极限,单峰性,香农熵和力矩等.在应用层面上,使用真实数据对构造的混合模