统计机器翻译中层次短语翻译模型的研究与实现

被引量 : 0次 | 上传用户:h459403474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着日益频繁的国际交流和互联网蓬勃发展,不同语言的之间的沟通也越来越重要,由此推动机器翻译的迅速发展。近十年来,统计机器翻译取得了很大的成功,成为了机器翻译的主流方法。基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术。而基于短语的翻译模型不能很好的处理长距离的调序问题,很多学者开始把语言学信息引入到翻译模型,基于句法的翻译模型成为了研究热点。本文主要针对层次短语翻译模型进行了研究,并且通过句法信息的指导,使翻译的质量得到显著的提升。首先,本文对基于同步上下文无关文法的层次短语翻译模型进行了全面的阐述,介绍了上下文无关文法的相关理论,实现了层次短语模型的训练过程,包括规则抽取和规则打分,并用实验验证层次短语规则抽取的的限制对翻译性能的影响;本文还实现了层次短语模型的解码器,介绍了解码器中使用的数据结构和高效的算法,通过对层次短语类型的分类分析,得出层次短语规则的优越性,并与基于短语的系统Moses进行了对比,分析对比这两种模型的内在性质。其次,本文在层次短语翻译模型的基础上加入了语言学信息。介绍了基于句法的翻译模型和树转录机的相关理论;为了加入句法信息对解码过程的指导,本文先对源语言进行句法分析,从而得到翻译规则满足句法的一些信息,然后用软约束的方法加入到层次短语模型,运用最小错误率训练重新调整参数,并用大量的实验来验证句法信息对系统性能的作用。最后,本文介绍了基于最大熵的规则约束模型。介绍了最大熵模型的原理,框架和优点;如何运用最大熵来建立规则约束模型,我们在训练的时候得到具有语言学信息的样本,然后用最大熵模型训练出规则约束模型,和其它模型一样纳到对数线性模型的框架内,并且用实验验证了该模型的有效性。
其他文献
本文研究冬小麦间作板蓝根对小麦生长和麦田CH4通量的影响,并对其进行经济与环境效益分析。试验在南京信息工程大学农业气象试验站采用田间小区试验进行,采用静态箱(暗箱)0气
银杏(Ginkgo biloba L.)区称白果,是国家一级的保护植物,是很典型的中生代孑遗物种,有着“活化石”的称号。我国拥有着大量的银杏资源,各地方都有栽培。广西桂林市的灵川县,
法院信息化是以计算机网络硬件、软件平台为中心,以现代通信网络为载体,充分利用现代科技手段,实现人民法院信息的采集、制作、传输、发布、存储、利用手段的现代化,实现法院
重庆“一小时经济圈”是重庆市经济发展的核心区域,本文结合重庆城市发展格局,重点分析了“一小时经济圈”内城市之间的客货运输特征,并结合各种交通方式的自身特点,提出了核
农村教育影响城镇化建设,农村教育的发展促进农村劳动力素质的提高,有利于农村劳动力向城镇的转移,从而促进城镇化的发展。教育有助于农民适应城镇的生活,可以使农民适应非农
采用低温溶液缩聚法,在聚对苯二甲酰对苯二胺(PPTA)聚合体系中引入了一定量的4,4’-二氨基二苯醚(4,4’-ODA),制备出了高黏度的改性PPTA纺丝原液,并直接进行湿法纺丝;研究了
随着科学技术和国民经济的迅速发展,越来越多的现代电力电子设备被投入到电网中运行,引起了包括电网谐波、电压波动以及闪变等众多电能质量问题。目前,电能质量问题已经成为
目的和方法:高脂血症(Hyperlipidemia,HLP)是动脉粥样硬化的重要成因,也是导致心脑血管疾病的主要病理基础;HLP的防治已在全球受到广泛关注,成为目前研究热点。中医药在防治
转向节是汽车底盘中的重要零件之一,它与汽车的悬架、前车轴、转向系传动机构和制动器相连接,具有承受汽车前部载荷、带动前轮实现汽车转向等功能。本文在回顾了汽车转向节研
随着国民经济的发展和现代化建设的稳步推进,电能已经成为人类生产生活的核心能源。无论是对电力用户还是电力公司,电能质量都已成为一个焦点问题。解决电能质量问题的关键是