基于众包的维吾尔语多源百科知识平台构建研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:edyzhang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“一带一路”的持续开展,各个民族之间的交流日益增多,新疆作为少数民族聚集区,加强少数民族尤其是维吾尔族信息文字技术处理对新疆地区经济建设和信息安全都有着重要的意义。维吾尔语知识库作为维吾尔语自然语言处理技术中不可或缺的基础资源,被广泛应用于各个方面。现有的维吾尔语知识库的建设大都依赖语言专家进行构造,虽然准确、严谨,但建设周期过长,规模难以扩大,并且在面对计算机技术不断发展和互联网的迅速普及产生的海量网络文本信息时,无法利用现有的知识资源实现知识库的动态更新。倘若维吾尔语知识库的建设可以融合现有的维吾尔语资源,并借助众包方式,化整为零将任务分配给广大互联网用户,利用广大互联网用户的力量,便可以“众人拾柴火焰高”,解决维吾尔语知识库建设中存在的问题。因此,本文探究维吾尔语资源构建的新途径,提出了一个融合现有结构化词典和网络半结构化维吾尔语资源,并通过众包方式构建的维吾尔语多源百科知识库。首先,本文阐述了课题研究背景及意义,对维吾尔语知识库及众包应用的现状进行分析,提出本文的研究内容及创新点。其次,本文对多知识源融合步骤进行详细说明,构建了维吾尔语百科知识库的分类体系,对维吾尔现有知识资源进行分析,将较有价值的维吾尔语词典资源及半结构化网络语料资源进行整合,初步形成维吾尔语多源百科知识库的雏形。然后,本文对众包概念及工作模式进行说明,分析应用众包时质量控制及激励机制两个重要难题,提出保证平台质量及性能的质量控制及激励机制的方法。接下来,本文对维吾尔语多源百科知识库众包平台进行设计,通过对平台整体设计、需求分析、数据库设计和流程设计完成对平台的设计,并详细介绍了平台实现时所用的技术及平台的实现。最后,对本文的研究内容进行了总结,并根据维吾尔语多源百科知识库众包平台中存在的问题和不足,提出了今后的研究方向,探索众包技术及多知识源融合在维吾尔语百科知识库构建中的应用前景。
其他文献
目的:探讨早产儿动脉导管未闭与早期光疗累计时间的相关性,以及胸部遮蔽光疗是否可作为保护性措施减少早产儿动脉导管未闭发生率。方法:本试验选取2018.05.01-2018.08.31于福
火山岩油气藏在准噶尔盆地油气资源中具有非常重要的地位,特别是在盆地东部滴南凸起石炭系含油气丰富。但石炭系火山岩油气藏岩性复杂、储层横向非均质性强、构造变形强烈、
词汇量是学好英语的前提,但有些高中生前记后忘,又觉得背单词乏味。本研究旨在通过利用带有不同字幕的英文原版电影,激发学生的学习兴趣;同时从词形、词义以及词汇应用等方面比较这些电影对学生附带词汇习得产生的影响。作者选取某市某中学高二年级103名学生,他们连续看了同一主题的三部英语原版电影,这些电影的字幕输入方式不同,即无字幕电影、中文字幕电影以及英文字幕电影,随后作者比较了不同字幕电影对附带词汇习得整
苏5区块位于苏里格气田中北部,主要产层位于二叠系石河盒组以及山西组,属于陆相辫状河、曲流河沉积。储层纵向非均质强,横向随河道迁移剧烈变化。随着苏5区块勘探开发工作不
本文是基于收录于音乐网站“音叉”(Pitchfork)音乐评论的英汉翻译实践报告。每篇文章所探讨的专辑都互不相同,因而在内容上各有侧重。此外,这些乐评文章由不同作者所编写,因
随着人工智能技术的高速发展和中国制造的崛起,汉字识别技术也越受关注。其中手写汉字细化得到的端点、交叉点和像素间的角度等特征信息都是手写汉字识别的部分依据。本文重
小分子在固体表面的吸附是研究催化反应以及表面扩散的关键一环,密度泛函理论(Density functional theory,DFT)经过多年发展,其对物质第一原理意义上的预测正在逐步走向现实,
我国铝工业快速发展使人们对铝土矿的需求与日俱增,但是由于我国铝土矿以高铝-高硅-低铝硅比的一水硬铝石型为主,难以直接满足拜耳法生产氧化铝的需求,因此铝土矿的提质脱硅
二维材料由于其特有的物理、化学性质受到了各个领域研究者的广泛关注。理论计算、材料模拟和结构预测已经成为研究二维材料性质和设计新型二维材料的重要手段。此外,自下而
液滴碰撞现象广泛存在于自然界和工业应用之中。虽然前人已经对液滴碰撞问题做了大量研究,但前人主要局限于相同组分液滴的碰撞,缺少对不可混溶液滴碰撞的定量研究。因此本文