论文部分内容阅读
本文以汉维机器翻译过程中的语言学、数学、计算机科学和翻译学为基础,开展面向机器翻译的维吾尔文词法及语义分析研究。汉维机器翻译中取得的目标语言(维吾尔语)通过优化处理,可取得更准确的翻译结果为本论文最终解决达到的目标。利用构建维吾尔语语义信息词典,依据该词典可对语言中的带有歧义现象的单词进行相似度计算,最终达到提高汉维机器翻译质量也是该论文的创新点。 通过自动机器自动翻译取得的结果往往是一个形态改变的一连串字符。词法分析是优化模块的基础,主要分析词语变化形式。通过词法分析,能够更好的得知词语原形、变动形态。根据单词原形进行语义分析、计算语义相似性后取得最优。研究由词法分析和语义分析两部分组成,通过实验结果分析,提出具体的处理方法。论文的主要工作如下: 1.句子边界识别:机器翻译中最小单位是词,语言是由一连串的字符串组成,当机器遇到字符串时需界定句子,才可以对句子中的词进行分析和处理。句子边界的识别对错直接影响词法分析。本文句子边界识别提出,以规则方法为主,对于少数歧义现象可利用统计方法进行处理。 2.词法分析中重点解决了词干提取的研究和实现工作。维吾尔语的部分词类具有自身独有的词缀,针对这些词类建立词缀表,利用规则和词典方法对词缀进行切分。而,针对维吾尔语中引起歧义现象的词缀,提出了统计学习方法。有机地融合词典、规则和统计模型等构建了基于混合策略的维吾尔语词干提取系统。根据维吾尔语形态系统的分布特点提出利用词典、规则和统计方法相结合的多种方法来实现词干的提取,也是本论文的创新点之一。 3.开发了自动词性标注模块。利用Python平台,自然语言处理工具包NLTK对词干进行自动词性标注,实现了面向机器翻译的词法的研究,利用强大的Python实现词性标注速度快、该方法比较适合与粘着性语言种类。即,运用与维吾尔语得出的准确率较高高。 4.建立了维吾尔语义知识库。维吾尔语言存在大量的同形多义词现象,为了使维吾尔语机器翻译质量的提升,本论文重点研究和建立了维吾尔语言知识库。从语义关系角度,对维语开展使用环境分析。通过对相同领域的不同语言进行分析,其他语言的方法可以为维语机器翻译提供借鉴。运用WordNet框架构建了维吾尔语语义库,收集整理了大量词典与语料库,将符合条件的词语收录到该词典中。根据WordNet框架体系重点建立了同义词、反义词等语义网关系,为机器翻译优化模型做好准备工作。 5.根据语义知识库提供的信息对单词进行相似度计算来优化了翻译结果。基于维吾尔文语义知识库。提出了,运用基于信息内容的Resnik计算方法以及基于特征计算的Tversky相似度计算方法相结合的混合方法进行相似度计算。 最后,对词法和语义进行研究与形成模块。为了验证在机器翻译上的有效性,我们选择了Microsoft提供的免费翻译在线平台Hub来进行了验证,在优化模块的Bleu值仅为42.75。利用我们设计的语义相似度计算后的Bleu值为54.25。