面向机器翻译的维吾尔语形态分析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hua1kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形态分析是自然语言处理领域里的一个重要研究重点,尤其是维吾尔语这种黏着性语言的形态分析研究是词法分析、句法分析、机器翻译、自然语言理解等研究领域的重要前提。  维吾尔语属于阿尔泰语系突厥语族,是一种黏着性语言,具有非常丰富的构词和构形词缀,而这些词缀给单词在语义、词性、数、格、时态等方面提供非常丰富的信息。维吾尔语的形态分析在自然语言处理领域里具有非常重要的研究意义。近年来,维吾尔语的自然语言处理引起了学术界的较大重视,语音识别,语音合成,机器翻译等方面取得了一些成绩。但是,由于维吾尔语自然语言处理研究起步晚,缺少较完善的可用标注语料等原因,开展更高层次的、全面的研究工作始终受到限制。  本文从维吾尔语的语言形态特征出发,力求在比较全面分析维吾尔语形态变化和构形词缀的基础上,基于标注语料资源缺乏的实际情况,针对维吾尔语的构形词缀的切分,以及形态成分的自动标注,从以下几个方面对基于融合策略的维吾尔语形态分析有关技术和方法展开了深入研究:  1.结合维吾尔语形态特征,分析了维吾尔语形态自动分析面临的问题,提出了构建面向自然语言处理的维吾尔语形态特征语法信息词典的思路及具体内容。  2.研究了基于形态词典及无监督的方法来解决无人工标注语料的情况下维吾尔语形态自动分析的方法及相关模型。  3.研究了一种基于小规模标注语料、词典、规则相结合的融合策略来提高形态分析效率的方法。在训练语料非常有限的情况下,综合考虑全部评价指标,该方法取得了92.58%的的准确率和97%的词干提取准确率。  4.从提升机器翻译质量的需求出发,针对维吾尔语复杂形态特征对维—汉统计机器翻译质量的影响进行了研究,提出并验证了通过形态分析来提高维-汉统计机器翻译质量的策略。本文研究的维吾尔语形态分析方法,在基线系统的基础上,BLEU值平均提高了1.33%。
其他文献
该文研究工作由两部分组成.其一是SMP机群编程模型研究.该文通过分析SMP机群体系结构的特点和SMP机群编程模型的现状,提出了细粒度并行化的OpenMP+MPI混合编程模型.通过对该
随着计算机技术的广泛应用和房地产业的飞速发展,人们对住宅的功能性、舒适性、安全性的要求越来越高,智能住宅由此应运而生。 智能住宅是住宅建筑与计算机、通信、控制等技
本论文的研究是在“IPv6信息过滤技术”课题的基础之上进行的,其目的在于对目前广泛流行的网络安全工具进行研究分析,并提出改进措施。 本文分析研究的内容包括扫描工具、入
无人机平台下运动目标的快速精确检测技术是无人机自主化的关键所在。无论在目标侦察、火力打击等军事领域,还是在智能交通、警用安防等民用领域,该技术都有着举足轻重的作用。
围绕转换系统的设计与实现,该文主要做了以下工作:1、对RADL算法描述语言和APLA抽象程序语言进行了归纳和整理.2、研究RADL语言与APLA语言各自的语法和语义及它们之间的相互
随着通信技术和数据库技术的发展,越来越多的应用系统需要访问一些异构的、分布的数据库来完成任务。多数据库系统在不改变原来这些数据库的基础上,为用户提供一个统一的、集成
随着信息技术的飞速发展,Internet已经发展成为当今世界最大的信息库,并且成为全球范围内传播信息和获取信息的最主要途径之一。计算机网络上出现越来越多的文本信息,这就对用计
随着信息全球化的不断推进和我国与世界接轨的不可阻挡的趋势,国内的信息化步伐正在大步迈进,计算机和互联网也在不断的普及,电子商务、电子政务和网上银行、网上炒股等名词越来
云计算模式通过资源池化,应用混合部署的方式使得其在硬件成本、资源利用率等方面有较大的优势。另一方面,不同应用对系统资源的竞争可能导致应用的资源需求得不到保障,造成响应
本文在H.323系统的组件网守的基础上,设计了基于Internet的流媒体传输控制系统(TCS)和相应的智能终端。TCS可以作为门户网站、电信增值运营商的基本软件系统,也可以理解为H.323