基于统计的机器翻译研究及应用

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:woai6672690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的信息时代,不同地区国家之间的交流变得更加容易和频繁,语言作为信息的载体,不同语言之间的翻译的重要性与日俱增。巨大的翻译需求推动着机器翻译的快速发展,在众多的翻译模型中,短语统计机器翻译模型应用最广且具有较高的翻译性能,近年来逐渐成为机器翻译领域的核心内容。本文研究的主要内容为基于短语的统计机器翻译系统的设计与实现,将机器翻译分为语料预处理,翻译模型训练,语言模型训练和解码器四个独立的功能模块。语料预处理主要包括分词以及格式标准化;翻译模型训练主要包括词对齐,短语抽取以及短语评分;语言模型使用最常用的N-Gram语言模型;解码器是翻译系统的核心模块,包括翻译候选项获取,计算未来翻译概率,搜索最优路径和译文生成工作。本文采用基于栈的搜索算法,在解码过程中,为了提高翻译效率,运用不同的剪枝策略分别对解码器进行优化,并通过实验对比不同剪枝策略对翻译结果的影响。本文实现了一个完整的统计机器翻译系统,能够完成基本的翻译需求,并对学者们提出的立方剪枝,柱状图剪枝,动态剪枝三种剪枝策略在该系统上实验,通过实验数据得出各种剪枝策略的性能和适用范围。本文研究得出,基于栈的解码算法具有较高的翻译性能,但解码速度较慢,其原因是翻译过程中有大量的翻译候选冗余,选择合适的剪枝方法,能够有效提高翻译效率。本文研究证实在立方剪枝,柱状图剪枝,动态剪枝三种剪枝策略中,立方剪枝的综合性能最高,并且相对安全和稳定;动态剪枝性能取决于剪枝对象的规模,其性能随着剪枝对象规模的增大而提高,在较大规模的翻译选项剪枝中有较好的表现。
其他文献
围绕介绍岭南园林的特色,阐述了岭南园林的文化理念、雕塑、书画和粤剧等民间艺术在造园中的应用。
城市道路交通流实时预测是未来城市智能交通系统的重要支撑,近年来受到较多的关注。文中结合国内城市交通状况,分析了城市道路交通流实时预测系统的系统需求,包括功能需求和
针对目前电力电子系统中常用的滞环控制方法开关频率不固定的现象,提出了一种新的模型预测控制算法(S—MPC)。该算法采用离散时间模型,预测电力电子变换器中控制对象未来的数值,根
居住区中的水体景观越来越为人们重视,不仅带动所在区域的人流聚集,也间接成为住区魅力形象的增长点。合理利用水体景观空间,优化住区景致使其为住区发展提供动力,并挖掘其新
H7N9禽流感在人群中发生感染给我国经济、农业以及卫生等多个领域带来了挑战。虽然现阶段已经初步控制了疫情,但H7N9禽流感仍有诸多不确定性影响因素存在。本文主要综述H7N9
<正>古代列国多奇闻,俞伯牙汉阳抚琴遇知音,巧逢钟子期对答把琴问,意气相投又把香焚。他二人分手太急未得细谈论,约会了汉阳相会再等来春。且不言伯牙回朝去交旨,子期回家侍
酯交换法生产生物柴油的过程中产生大量副产物甘油,如何利用这部分的甘油已经成为生物柴油产业的一个难题。甘油蒸汽重整制氢是解决这个问题的有效的方法之一。本文考察了沉淀
<正>党建标准化是指运用标准化"简化、统一、协调、优化"的原理,发挥其可复制、可推广的优势,秉承其可持续改进的特性,以追求最佳秩序、获取最大效能为目标,把党建工作制度系
电磁频谱管理是未来信息化联合作战战争形态的必然要求。本文通过对电磁频谱管理部队使命任务和电磁频谱技术与管理专业人才培养现状进行梳理,分析了目前该专业人才培养存在
以乙炔炭黑、副产炭黑和炉法导电炭黑为研究对象,较为系统地分析了与导电炭黑应用性能密切相关的微晶结构、表面性质、颗粒形貌和粒度分布特征,探讨了导电炭黑微观结构对应用