基于反向转录文法的无监督词对齐研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ytx45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是用计算机将一种自然语言翻译为另外一种自然语言的技术。由于具有良好的适应性,统计机器翻译成为现在主流的机器翻译方法。虽然统计机器翻译的模型在不断的发展变化,但是词对齐至今仍然是绝大多数统计机器翻译系统的基础。  人们已经对词对齐这个问题进行了大量的研究。从学习范式讲,词对齐模型可以分为生成式和判别式两种。生成式词对齐模型对双语语料的生成过程进行建模,可以进行无监督训练,不需要人工标注语料,但是现有的生成式词对齐模型一般不便于加入已知的先验知识。判别式词对齐模型在给定双语句对的情况下,直接对词对齐进行建模,对词对齐有用的信息一般以特征函数的形式加入到模型里面,便于利用各种已知的先验知识,其缺点是大多数判别式词对齐模型需要人工标注语料,进行有监督的训练。  目前,有研究尝试把这两个模型的优点结合起来。本文受到这些研究工作的启发,做了以下的工作:  1.提出了一种基于特征函数和反向转录文法(ITG)的无监督词对齐模型,使用对数线性模型对文法规则的概率建模,先验知识可以通过特征函数的形式加入到模型里面,而模型仍然可以进行无监督训练。  2.在模型的参数训练方面,本文在模型的优化目标上增加了一个L1正则化因子,使得模型能学到一个稀疏的解,把文法规则概率集中到了对词对齐有用的文法规则上面,提高了词对齐的质量。  3.开发了一个基于ITG的无监督词对齐软件工具,实现了传统的ITG无监督词对齐模型和基于特征函数的ITG无监督词对齐模型。  本文在词对齐和机器翻译两个方面进行了相关的实验。实验结果表明,本文提出的模型无论是在词对齐还是在机器翻译方面都优于传统的ITG无监督词对齐模型。
其他文献
该文对立体测绘微小卫星(SMMS)星务管理软件系统进行技术设计.星务管理软件分系统是卫星测量、控制、通信的调度中心.根据总体设计的要求,在以EX386星载计算机为核心的硬件环
随着人们对感兴趣区域进行全面感知需求的日益增强,以及采集多媒体信息的CMOS(Complementary Metal Oxide Semiconductor,互补金属氧化物半导体)摄像头等硬件设备成本较低,促使无
手语不仅是一种重要的人体语言,同时还是人机交互中的一种自然而有效的方式.而如何计算机理解人类手语正是手语识别所要解决的问题.实际的手语识别系统应该是一个面向大词汇
该文从系统的需求分析开始,系统地介绍了采用并行处理机制实现EI-2000型火灾报 警控制器软硬件设计的过程,重点介绍了系统软件的任务划分及任务状态转换控制机制,对系统任务
光纤的非线性效应是影响波分复用系统性能的一个重要因素.它严重制约着未来光通信的发展.该文就光纤通信中受听话喇曼散射(SRS)和受激布里渊散射(SBS)问题进行了研究,从理论
近年来随着Internet的飞速发展,计算机网络的资源共享进一步加强,随之而来的信息安全问题日益突出.特别是校园网(企业网)的信息安全问题越来越受到人们的重视.该文以校园网(
该文在对ME芯片的整体结构和工作流程进行分析的基础上,得出用FPGA实现ME芯片有很大优势的结论,接下来介绍了的FLEX10K的总体结构、边界扫描测试及配置.在此基础上,根据ME芯
该文的主要工作包括:剖析Mach操作系统,围绕Mach进程及其相关的核心数据结构讨论了进程迁移的机制和策略,进而构造Mach上的进程迁移服务器,最后,该文构造了用于测试的人工进
针对传统的代码注入和代码复用等攻击技术的缺陷,Return-Oriented Programming(ROP)提出了复用以ret结尾的短指令片段,实现图灵完备编程的思想。ROP攻击可以绕开现有的针对代码
随着信息技术的发展,人们对于运用计算机及网络技术来帮助、协调和管理自身工作的需求正在逐步地提高.近来,国内外兴起了一服办公自动化的热潮,希望能借助相关的计算机技术实