词对齐技术研究及统计机器翻译平台的构建

来源 :东北大学 | 被引量 : 0次 | 上传用户:z987z654z123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于统计的方法在机器翻译领域内占据着主导地位,出现了多种不同类型的统计机器翻译系统,如基于短语的系统、基于层次短语的系统、基于句法的系统等。不同类型的系统都各具特点,在不同的领域和方面都表现出了良好的翻译性能,统计机器翻译技术正朝着多元化的方向发展。本文研究了多引擎统计机器翻译平台的实现技术,并针对其中词对齐技术存在的问题提出了解决方案。论文的主要工作归纳如下:(1)词对齐对称化方法的研究。我们针对现有词对齐对称化方法中存在的问题,提出了一种有效的改进方法。它首先在IBM模型获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。然后,对对齐不一致的部分进行重新对齐,并得到更好的对称化的词对齐结果。此外,我们还提出了利用大规模单语语料来强化对齐结果的方法。相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,文本提出方法可以使统计机器翻译系统得到更高的翻译准确率。(2)多引擎统计机器翻译平台的构建。我们为统计机器翻译模型和算法的研究搭建了一个良好的多引擎统计机器翻译平台,同时也为面向工程性开发提供了一个转换平台。多引擎统计机器翻译平台实现了现今主流的三套统计机器翻译系统(基于短语的统计机器翻译系统,基于层次短语的统计机器翻译系统以及基于句法的统计机器翻译系统)。我们根据模块化的思想对翻译平台进行构建,首先根据翻译系统子功能的定义进行模块切分,并整合切分得到的各功能模块,最终得到模块化的翻译平台。从功能和层次的角度出发,我们共设计了六个模块,1)语料预处理模;2)词对齐模块;3)规则短语抽取模块;4)解码器模块;5)系统融合模块;6)后处理模块。最后,在搭建的统计机器翻译平台的基础上,我们进行多组对比实验,对各翻译引擎的性能进行了比较分析。综上所述,本文构建了基于多引擎的统计机器翻译研究平台,并在此基础上,针对词对齐对称化方法存在的问题,并提出了一种改进的重新对齐方法。
其他文献
针对遥感影像数据,如生物物理参数产品、大型工程评价区生物环境变化监测产品、国家级自然保护区植物优势群落监测、国家级自然保护区生境破碎状况预警产品、土壤遥感应用产品、区域生态环境灾害遥感应用等进行生产、加工、处理时,第一步要对遥感影像数据进行分割目标,并通过目标识别来提取所需要的信息,第二步是将分割目标结果进行分析,并进行目标识别处理等,这个过程称之为连通域标记。那么,为实现遥感影像数据进行连通域并
随着嵌入式系统与网络的日益结合,如何保证嵌入式系统间重要数据的安全通信,成为嵌入式领域中重要的研究方向。由于SSL协议为TCP层提供安全服务,能有效防止长期困扰人们的许
在网络和多媒体技术飞速发展的今天,数字作品的知识产权保护和内容完整性认证成为人们亟待解决的迫切问题。传统的密码技术由于自身的缺陷已经不能满足人们的需要,在此背景下
网络交易的日益风行,使传统的版权保护手段和数据安全技术面临极大的挑战和某些难以克服的困难。数字水印技术正是通过特定的算法将版权信息嵌入到多媒体数据中,且不影响原媒
学位
随着经济的发展和城市化进程的加快,城市人口的增长、机动车拥有量的增加、城市形态的变化以及社会活动规模的增加都给大、中城市的交通及其管理系统增加了越来越重的负荷,交通
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别一般分为人脸检测、特征抽取和模
随着Web2.0时代的到来,充满交互性的社区问答,作为一种以用户为中心的新型问答方式,由于其答案的通常都是经过了人工筛选,具有较高的质量,因而相比传统问答系统的准确性更高,
说话人识别技术是一种生物认证技术,其可按不同的标准分成说话人辨认和说话人确认、文本相关和文本无关说话人识别等。在实用环境下,电话网络、通信网络的文本无关说话人确认
随着软件开发技术的不断发展,面向服务架构技术已逐渐成为继面向过程,面向对象,面向构件等技术以后的主流技术架构。SOA突出的特点是粗粒度和松耦合,使得不同的业务间可以通