基于Morfessor的维吾尔语词干提取和词性标注的研究

被引量 : 0次 | 上传用户:RTTR123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译系统的性能与语料库规模是密不可分的,语料库质量也直接影响到最后的翻译结果。因此自动词性标注与词干提取作为创建标注语料库中的基础性工作具有非常重大的研究意义。维吾尔语自然语言处理研究中维吾尔语自动词干提取和词性标注是跟上述一样必不可少的一部分,本文中为了提高基于MOSES的维汉双向统计机器翻译的翻译质量,必须扩大标准的维汉平行语料库的规模,然后机器翻译训练集、开发和测试集中加词性标注和词干提取。此外维吾尔语词性标注和词干提取研究工作开始到现在不同人用不同的方法来实现,但是结果并不理想。在本文中分别引用了基于Morfessor的词干提取算法和基于条件随机场域(CRF)的词性标注方法。分别介绍CRF和Morfessor的原理并对其进行实验。为搜集语料本文开发了一个基于WEB的维哈柯多语种网上数据采集工具,本文90%的实验数据都是由此工具得到;由于CRF和Morfessor都对开发集和测试集的数据格式有严格要求,因此本文开发了两个预处理软件。本文通过在CRF中修改模版文件,并在LINUX平台上不断做实验,最后得到词性标注模型并调用该模型开发出自动词性标注系统。在Morfessor中必须大量的数据上做实验训练出最好的词干提取模型,只调用此模型进行词干提取不能解决维吾尔语中的元音弱化、脱落等问题。因此本文利用处理以上问题的算法于该模型结合开发出自动词干提取系统;最后测试结果显示本系统的维吾尔语自动词性标注准确率达到了89.73%,自动词干提取准确率达到了86.80%。基于以上研究成果本文的基于MOSES的维汉双向统计机器翻译的BLEU分也从原来的23.42提高到目前的25.38;
其他文献
目的:探讨P27表达与结直肠癌侵袭转移、多药耐药及预后的关系,并初步分析其机制.方法:随机选取北京大学肿瘤医院结直肠外科2008-03/2012-03收治的散发性结直肠癌患者263例,所
在当前构建社会主体和谐社会的大环境下,我国已经进入到和谐社区建设与发展的新阶段。在这种情况下我国社区工作的内涵也发生了相当大的变化,主要表现在社区服务内容增多、提
介绍了木工机械行业的特点,产品现状及存在的主要问题,为解决问题应采取的对策,并提出了木工机械产品的发展方向。
首先以异喹啉为原料,经氧化生成氮氧化物后与苯甲酰氯和水作用,得到1-羟基异喹啉,收率为73.3%.以Fasudil为原料,经氨基保护、氧化,在相转移催化剂的存在下,于二氯甲烷和水的
大学生的英语口语能力一直受到社会的关注和批评。教师应如何提高大学生的英语口语能力,是本文要探讨的中心议题。下面针对如何提高大学生英语口语谈以下几个方面。
李瓶儿是《金瓶梅》中众多栩栩如生、血肉丰满的女性形象之一。小说描写了她在生活中的喜怒哀乐与爱恨情仇。以嫁与西门庆为界,其性格发生了根本的变化:由一个悍妇变为一个贤
英国与非洲约有400多年的交往史,又曾经是非洲最大的殖民国家。当代非洲有20多个国家曾经是英国的殖民地保护国或自治领。至今这些国家仍与英国保持着密切关系,其中19个国家
目的分析2005—2018年山东省济南市分离的脑膜炎奈瑟菌(Nm)分子流行病学特征。方法采用多位点序列分型(MLST)方法,对Nm的分子分型进行研究,并使用BioNumerics软件进行分子分
医患关系日趋紧张,已成为社会高度关注的焦点问题,也是医疗卫生制度改革无法回避的问题。在医与患的关系中,患方相对于医方来说,往往处于弱势地位。因此,倾听基层群众对"好医
唱歌教育直接与情感相关联,与心灵相沟通。在小学音乐课中应用良好的唱歌教学可以让小学生在唱歌过程中更好地感受音乐,表现音乐、为以后的音乐学习作好铺垫。本文从唱歌的本