面向机器翻译的维吾尔文词法及语义分析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ppcppc825406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以汉维机器翻译过程中的语言学、数学、计算机科学和翻译学为基础,开展面向机器翻译的维吾尔文词法及语义分析研究。汉维机器翻译中取得的目标语言(维吾尔语)通过优化处理,可取得更准确的翻译结果为本论文最终解决达到的目标。利用构建维吾尔语语义信息词典,依据该词典可对语言中的带有歧义现象的单词进行相似度计算,最终达到提高汉维机器翻译质量也是该论文的创新点。  通过自动机器自动翻译取得的结果往往是一个形态改变的一连串字符。词法分析是优化模块的基础,主要分析词语变化形式。通过词法分析,能够更好的得知词语原形、变动形态。根据单词原形进行语义分析、计算语义相似性后取得最优。研究由词法分析和语义分析两部分组成,通过实验结果分析,提出具体的处理方法。论文的主要工作如下:  1.句子边界识别:机器翻译中最小单位是词,语言是由一连串的字符串组成,当机器遇到字符串时需界定句子,才可以对句子中的词进行分析和处理。句子边界的识别对错直接影响词法分析。本文句子边界识别提出,以规则方法为主,对于少数歧义现象可利用统计方法进行处理。  2.词法分析中重点解决了词干提取的研究和实现工作。维吾尔语的部分词类具有自身独有的词缀,针对这些词类建立词缀表,利用规则和词典方法对词缀进行切分。而,针对维吾尔语中引起歧义现象的词缀,提出了统计学习方法。有机地融合词典、规则和统计模型等构建了基于混合策略的维吾尔语词干提取系统。根据维吾尔语形态系统的分布特点提出利用词典、规则和统计方法相结合的多种方法来实现词干的提取,也是本论文的创新点之一。  3.开发了自动词性标注模块。利用Python平台,自然语言处理工具包NLTK对词干进行自动词性标注,实现了面向机器翻译的词法的研究,利用强大的Python实现词性标注速度快、该方法比较适合与粘着性语言种类。即,运用与维吾尔语得出的准确率较高高。  4.建立了维吾尔语义知识库。维吾尔语言存在大量的同形多义词现象,为了使维吾尔语机器翻译质量的提升,本论文重点研究和建立了维吾尔语言知识库。从语义关系角度,对维语开展使用环境分析。通过对相同领域的不同语言进行分析,其他语言的方法可以为维语机器翻译提供借鉴。运用WordNet框架构建了维吾尔语语义库,收集整理了大量词典与语料库,将符合条件的词语收录到该词典中。根据WordNet框架体系重点建立了同义词、反义词等语义网关系,为机器翻译优化模型做好准备工作。  5.根据语义知识库提供的信息对单词进行相似度计算来优化了翻译结果。基于维吾尔文语义知识库。提出了,运用基于信息内容的Resnik计算方法以及基于特征计算的Tversky相似度计算方法相结合的混合方法进行相似度计算。  最后,对词法和语义进行研究与形成模块。为了验证在机器翻译上的有效性,我们选择了Microsoft提供的免费翻译在线平台Hub来进行了验证,在优化模块的Bleu值仅为42.75。利用我们设计的语义相似度计算后的Bleu值为54.25。
其他文献
随着信息技术的飞速发展,Internet已经发展成为当今世界最大的信息库,并且成为全球范围内传播信息和获取信息的最主要途径之一。计算机网络上出现越来越多的文本信息,这就对用计
随着信息全球化的不断推进和我国与世界接轨的不可阻挡的趋势,国内的信息化步伐正在大步迈进,计算机和互联网也在不断的普及,电子商务、电子政务和网上银行、网上炒股等名词越来
云计算模式通过资源池化,应用混合部署的方式使得其在硬件成本、资源利用率等方面有较大的优势。另一方面,不同应用对系统资源的竞争可能导致应用的资源需求得不到保障,造成响应
本文在H.323系统的组件网守的基础上,设计了基于Internet的流媒体传输控制系统(TCS)和相应的智能终端。TCS可以作为门户网站、电信增值运营商的基本软件系统,也可以理解为H.323
形态分析是自然语言处理领域里的一个重要研究重点,尤其是维吾尔语这种黏着性语言的形态分析研究是词法分析、句法分析、机器翻译、自然语言理解等研究领域的重要前提。  维
对于规模较庞大、功能较复杂的系统而言,软件工程方面的方法论发挥着重大的作用.在系统的分析和设计方法中,面向对象的方法作为一种科学先进的方法,已经取代了结构化的分析方
基于笔迹的计算机身份鉴别是目前活跃于模式识别和图像处理领域的研究热点之一。小波分析具有出色的时间—频率域多分辨特性,十多年米在信息处理领域得到了迅速的发展。将小波
区域制造资源优化配置是通过信息技术将分散在区域内的各种制造资源有效地组织起来,使企业能够快速、准确地找到需要的资源,既提高资源利用率,又使资源以最有效的组合为区域内企
学位
针对基于静态规则集的入侵检测系统在高速网环境下高漏报误报和性能失衡问题进行研究,提出分析强度、最优规则集的概念,建立了动态规则集机制的模型,它可以根据网络流速和事