基于中轴语的统计机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunshinewlm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是指利用计算机自动的将一种自然语言翻译为另一种自然语言的技术。近年来,统计机器翻译与神经网络机器翻译已成为机器翻译研究领域的主流。统计机器翻译与神经网络机器翻译的基本思想是利用学习算法,从大规模双语句对中学习到翻译规则。但是,并不是所有的语言对之间都存在大规模的双语句对。为了解决机器翻译中的数据稀疏问题,研究人员提出了中轴语的概念,即在源语言与目标语中间引入中轴语,要求源语言与中轴语、中轴语与目标语之间存在大规模双语语料。本文针对基于中轴语的统计机器翻译,重点研究以下几个方面:1.中轴语翻译的概率估计。目前,主流的中轴语翻译研究建立在基于短语的统计机器翻译基础上,这些研究通过直接将源语言-中轴语、中轴语-目标语的翻译概率相乘得到源语言-目标语的翻译概率。然而,由于源语言-中轴语、中轴语-目标语分布于两个不同的概率空间,并且可能存在着领域差异,这会导致翻译概率准确率低。为此,本文提出基于短语对共现次数的中轴语短语翻译模型,该方法首先抽取源语言-中轴语、中轴语-目标语短语,然后基于上述短语对推导出相应的源语言-目标语短语,最后在推导出的源语言-目标语短语对基础上计算源语言-目标语短语翻译概率。通过该模型,可以将原有的源语言-中轴语、中轴语-目标语翻译概率计算空间统一到源语言-目标语概率空间。在同一个概率空间下,可以得到更为准确的翻译概率。实验结果表明该方法在多个语言对上取得了比传统方法更优的结果。2.中轴语翻译中的隐含翻译知识挖掘。作为统计机器翻译模型的载体,翻译短语表储存了翻译所需要的翻译知识,主要包含互译短语对、短语翻译概率等。对于目前基于短语的中轴语翻译方法,存在的一个缺陷是如果具有相同意思的源语言短语与目标语短语分别对应到不同的中轴语短语,那么对应的源语言与目标语短语对也会被丢失,这导致了翻译知识的丢失问题。为了解决这一问题,本文引入随机游走算法,在源语言-中轴语、中轴语-目标语短语表上构建翻译联通图,深度挖掘源语言-中轴语、中轴语-目标语短语表中的隐含翻译知识。实验结果表明随机游走算法可以有效地挖掘中轴语翻译中的隐含翻译知识,提高翻译效果。3.中轴语翻译中的噪声过滤。模型中的噪声问题是统计机器翻译不可避免的问题。有多种因素可能导致噪声的产生,例如双语语料中的非对齐句对、词对齐过程中的错误等。在基于中轴语的统计机器翻译中,由于源语言-目标语短语表是由源语言-中轴语、中轴语-目标语短语表推导而来,这两个原始短语表中的噪声会被进一步放大到源语言-目标语短语表中。同时,由于中轴语短语本身可能带有多义性,这也会对源语言-目标语短语表带来新的噪声。为了解决中轴语翻译中的噪声问题,本文提出了基于最小贝叶斯风险的短语表过滤方法,这一方法在短语表中选择风险最小的短语进行过滤。实验结果表明这一方法可以在减小短语表规模的同时提升翻译性能。4.中轴语翻译中的调序规则生成。对于传统统计机器翻译,研究人员通常使用词汇化调序模型来调整翻译结果中的短语顺序。词汇化调序模型将调序类型分为3种:单调、交换与不连续。生成一个词汇化调序模型需要依赖上下文信息,而在经典的基于中轴语的统计机器翻译中,上下文信息往往会被丢失。基于此,本文提出了基于扩展上下文信息的词汇化调序模型,通过将中轴语翻译中的上下文信息泛化为词性、词汇片段等信息,有效地解决了中轴语翻译中的调序问题。实验结果表明基于上下文信息的词汇化调序模型在多个语言方向上可以有效提高翻译效果。
其他文献
恒前牙外伤在儿童比较常见。及时正确地处理外伤牙,对于保留功能以及牙颌、颜面的正常发育有重要意义。
简略介绍服装产业应用的传统、二维、三维人体测量方式的基础上,探讨服装产业需要测量的具体人体尺寸,研究三种服装人体测量方式中测量人体特征点的位置、找寻方法等的异同,使国
城市是服务业发展的空间载体和集聚地,城市规模各异,服务业发展对经济增长的影响不同。基于中国2003~2015年260个地级市面板数据,以城市规模为门限,运用固定效应模型和门限回
创新能力不仅是一个时代进步的标志,而且是一个国家发展的动力。针对初中生物教学中学生创新能力的培养,从激发兴趣、创设情境、创新思维的培养、鼓励学生质疑和实验教学等方
近年来,水资源短缺问题已经成为制约社会快速发展的重要因素之一,而水体污染的严重化使得水资源短缺这一难题更加愈演愈烈。对污水进行再生利用,具有多方面的意义,例如降低对
人才培养模式是高等职业教育领域的基本问题。以新疆交通职业技术学院二手车鉴定与评估专业为背景阐述了二手车鉴定与评估专业人才培养模式的构建过程,最终确立了适合本专业
在当今大数据时代下,数据质量的保证是大数据价值得以发挥的前提,数据质量的评估是其中一个重要的研究课题.本文基于规则库的数据质量评估方法,提出了数据质量评估整体模型,
研究震后应急物资多方式供应中的多层次设施定位-路线规划问题(LRP),综合考虑应急物流网络中的多周期应急物资模糊需求、时间窗限制、部分路网损毁与动态恢复、车辆随机行驶时间
为了解决目前舰船电子装备故障检测原始技术数据采集与传输控制中测试技术专家与现场技术人员之间信息交互的难题,提出了一种基于RFID的仪器通信和数据采集控制技术的系统;以
铜及铜合金具有良好的综合性能,广泛应用于信息、交通、电力等行业,随着国民经济不断的发展,相关领域对铜合金的性能提出更高的要求,Cu-Cr系合金作为高导电材料具有广阔的工