论文部分内容阅读
语言模型是为解决自然语言这种上下文相关特性建立的一种数学模型,在自然语言处理技术中占有重要地位,被广泛应用于机器翻译、语音识别、中文拼音输入、信息检索等领域。在机器翻译系统中,语料库的训练过程通过自动学习的方式生成两类模型:翻译模型和语言模型。翻译模型的主要思想是对平行语料进行统计分析计算,使翻译译文表达出源语言的思想,而语言模型的作用是决策翻译译文的流利度,其性能的好坏决定翻译译文是否通顺可读。 目前,在汉维机器翻译系统中,维语语言模型仍存在不足,具体表现在:维语构词方式是由词干添加若干词缀组成新词,这些新词持续的增多导致语言模型训练过程中数据稀疏现象严重,在翻译解码的过程中识别未登录词的能力较差;同时维语句子结构中维语动词与主语的人称、时态保持一致,词语之间的长距离语法依存关系较高,然而,基于统计的语言模型对维吾尔语的长距离相依关系描述能力不足,导致最终的翻译译文质量下降; 针对汉维机器翻译系统中维语语言模型存在的上述问题本文阐述并且开展了相关研究,皆在有效缓解或者克服这些问题,本文的主要工作概述如下: 1.为了解决维吾尔语构词多样性产生的数据稀疏问题以及提高长距离依存关系的能力,本文重点提出了一种基于泛化思想的语言模型,该模型借助维吾尔语语言模型训练过程中生成的语言模型文本,进行文本预处理工作,结合字符串相似度算法,取相似的短语字符串进行规则抽取和参数估计。 2.由于解码过程本质上是由启发式搜索算法决定的,同时未登录词识别能力差对调序顺序产生一定的影响,导致搜索得到的概率最高的候选译文可能不是最优的译文,本文结合抽取出的泛化规则,构造分数产生器对解码过程中生成N-best假设译文进行预处理、“共现词”计算、重排序及l-best译文的提取。 最后,本文将泛化语言模型应用到汉维机器翻译系统中,测试验证泛化语言模型的有效性,实验结果表明,该方法有效地提高了翻译译文的质量。