维吾尔文NLP中若干问题研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:huanghoubin102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,尤其是计算机网络的广泛普及和迅速发展,自然语言处理也越来越多地受到了广大计算机工作者的重视。在这样的大环境下,民文信息处理技术也应运而生。中央提出的“一带一路”的战略规划,使得民文信息处理技术的发展显得尤为重要,并且也迎来了难得的机遇和挑战。本文从维吾尔文字的多模式、多编码的特点入手,根据维吾尔文的黏着型的特点,提出了维吾尔语阿拉伯文与维吾尔语斯拉夫文间的转换系统;之后对维吾尔文的词性标注、词干提取进行了阐述;最后在该系统的基础上分析了三种分类器对维吾尔文进行分类的结果,最后得出结论。主要研究内容如下:(1) 提出了一种基于规则与词典结合转化编码算法,选用微软中间件,采用二进制文件结构和二分法查找方法,开发并实现一个编码转换原型系统。(2) 提出了一个融合词干与词缀形态特征的基于最大熵的维吾尔文词性标注模型。构造了词性标注特征模版,并设计了相应的特征函数。实验结果分析表明,最大熵模型可以较好地处理兼类词和未登录词的词性标注问题,标注准确率比其他标注系统有明显提高。(3) 提出了一种多策略集成的维吾尔文的名词词干提取方法,设计了基于规则与词典相结合、最大熵和有限状态自动机的词干切分策略。在权威语料库的平台上进行了实验,结果表明,本文提出的方法提高了名词词干提取的准确率。(4)本文介绍了维吾尔文的文本分类技术,建立了一定规模的文本语料库。采用词干提取方法降低了向量空间维数,采用CHI统计特征选择方法。在较大规模文本语料库基础上分析了KNN,朴素贝叶斯(NB),SVM等每一种算法在维吾尔文文本上的性能。实验结果表明SVM分类器性能最好。本文对维吾尔文自然语言处理中编码转换、词性标注、词干提取及其在文本分类中的性能进行了分析和研究,得到了有一定价值的结果,并为以后的研究提供了基础。
其他文献
糖尿病(DM)是以糖代谢失常为主的一种常见的内分泌性代谢疾病。其主要病理生理变化为胰岛素的绝对不足或胰岛素效应引起的糖、蛋白质、脂肪、水及电解质等代谢紊乱。DM是一种慢
<正> 首次出国录井的华北录井公司综合录井六队优质完成了位于蒙古国东部TAMTSAG盆地SOCO-19-1井的综合录井任务。该井甲方监督为美国SOCO公司派出,且地质监督为该公司副总裁
期刊
本文应用灰色关联度分析法,研究了夏大豆主要农艺性状对产量的影响.结果表明:产量与12个性状的关联序依次为单株粒重τ12>生育日数τ3>百粒重τ11>开花~成熟日数τ2>株高τ4>出苗~开
下肢动脉硬化闭塞症(lower extremity arteriosclerosis obliteran,LEASO)是由动脉硬化造成下肢动脉内膜增厚、血管管腔狭窄甚至闭塞的一种疾病,临床主要表现为患肢血供不足
本文在供应链快速响应背景下,假设在销售周期中有两次采购机会和两次销售机会,分析信息更新下的最优采购策略。通过建立无信息更新,完全信息更新和部分不完全信息更新的三种模型
无痛人流术是具有创伤性的无痛流产手术,与其他流产手术相比较,它的优势主要在于在药物静脉麻醉作用下,患者呈深度睡眠状态而感觉不到疼痛。这也是目前临床上用于终止因意外
冠状病毒是有包膜的单股正链RNA病毒。作为人和动物的重要致病原,冠状病毒感染主要导致宿主呼吸系统、肝脏、胃肠道以及神经系统出现急性或慢性症状。2000年以来,传染性非典
目的:通过观察塞来昔布、来曲唑分别及联合用药对乳腺癌细胞MCF-7增殖的影响,探讨并比较塞来昔布和来曲唑的抗肿瘤作用,为乳腺癌的治疗提供理论依据。方法:1、MTT法检测不同浓度
英语中有许多含有人名的习语具有隐喻意义。本文在语料分析的基础上,对这些人名隐喻义的由来进行了探讨,指出《圣经》典故、神话传说、轶闻趣事、文学戏剧、时事新闻等是这类习
茅盾的小城写作在其小说创作中的重要性,体现在他将城市、小市镇、乡村都包括在内的宏大的写作计划,也体现在小城写作在人物形象、艺术手法等方面对其小说风格、特性的延续。