面向汉维机器翻译的泛化语言模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qidezhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型是为解决自然语言这种上下文相关特性建立的一种数学模型,在自然语言处理技术中占有重要地位,被广泛应用于机器翻译、语音识别、中文拼音输入、信息检索等领域。在机器翻译系统中,语料库的训练过程通过自动学习的方式生成两类模型:翻译模型和语言模型。翻译模型的主要思想是对平行语料进行统计分析计算,使翻译译文表达出源语言的思想,而语言模型的作用是决策翻译译文的流利度,其性能的好坏决定翻译译文是否通顺可读。  目前,在汉维机器翻译系统中,维语语言模型仍存在不足,具体表现在:维语构词方式是由词干添加若干词缀组成新词,这些新词持续的增多导致语言模型训练过程中数据稀疏现象严重,在翻译解码的过程中识别未登录词的能力较差;同时维语句子结构中维语动词与主语的人称、时态保持一致,词语之间的长距离语法依存关系较高,然而,基于统计的语言模型对维吾尔语的长距离相依关系描述能力不足,导致最终的翻译译文质量下降;  针对汉维机器翻译系统中维语语言模型存在的上述问题本文阐述并且开展了相关研究,皆在有效缓解或者克服这些问题,本文的主要工作概述如下:  1.为了解决维吾尔语构词多样性产生的数据稀疏问题以及提高长距离依存关系的能力,本文重点提出了一种基于泛化思想的语言模型,该模型借助维吾尔语语言模型训练过程中生成的语言模型文本,进行文本预处理工作,结合字符串相似度算法,取相似的短语字符串进行规则抽取和参数估计。  2.由于解码过程本质上是由启发式搜索算法决定的,同时未登录词识别能力差对调序顺序产生一定的影响,导致搜索得到的概率最高的候选译文可能不是最优的译文,本文结合抽取出的泛化规则,构造分数产生器对解码过程中生成N-best假设译文进行预处理、“共现词”计算、重排序及l-best译文的提取。  最后,本文将泛化语言模型应用到汉维机器翻译系统中,测试验证泛化语言模型的有效性,实验结果表明,该方法有效地提高了翻译译文的质量。
其他文献
该论文对基于短消息业务的数据挖掘系统的子系统短消息业务相关性分析系统进行了研究与实现.该论文首先分析设计了基于短消息业务的数据挖掘系统;然后对短消息业务相关性分析
该文利用模糊神经网络学习算法重点对模糊规则基进行优化.在对国内外常用的模糊神经网络学习算法进行了深入分析的基础上,对模糊规则基的优化和初始参数的设定方面进行了详尽
粗集理论是近年来发展起来的一种有效地处理不精确信息、含糊信息的数学理论方法,在机器学习、知识发现、模式识别等领域取得了很大成功.研究者从不同角度对这个理论进行研究
随着互联网规模的飞速发展,如何高效合理地使用现有的网络资源,保障网络健康良好地运行,已经成为一个研究的热点问题.网络行为学的主要目的就是将业务流量在现有的网络拓扑结
随着移动互联网的迅速发展,使用手机等移动终端进行移动上网的网民越来越多。与此同时,移动网络带宽资源变得日益紧张,而且对网络的优化也变得更加困难和复杂。如何在现有网
作为信息时代的桥梁,Internet已经渗透到社会经济的各个领域,对社会经济发展起着越来越重要的作用.为了保证Internet的运行效率和服务质量,进一步了解网络行为规律,必须通过
随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源.但因Internet所固有的开放性、动态性与异构性,又使得用户很难准
随着信息技术的发展,电子政务已经成为了当今的热门话题,围绕着电子政务系统的技术研究也成了要求迫切的课题.该文重点研究了基于数据字典的电子政务系统的应用,构建出了根据
学位
中国国家知识产权局专利局正在开发的中国专利电子申请系统作为电子政务工程,意义十分重大.鉴于国际知识产权组织将XML格式作为专利电子申请文件的描述标准,为了和国际接轨,