基于短语模板的机器翻译研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:flapme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
泛化的EBMT(Example-based machine translation)是针对传统EBMT的一种改进方案,它利用翻译模板取代翻译实例,这样既减小了实例库的规模,同时也在一定程度上提高了模板匹配的几率,是一种有效的机器翻译方法。本文在泛化的EBMT的基础上,采用基于短语模板的方法,展开进一步的研究工作:在泛化EBMT中引入句法分析技术,将句子抽取成短语模板和主干模板,构建双层翻译模板库,同时提出一种句子相似度模型的训练方法。其主要过程如下:在模板的抽取阶段,利用句法分析器对双语平行语料中的源语言句子进行句法分析,将分析结果中的短语部分抽取出来,留下句子的主干部分;然后根据词语对齐关系把目标语言的句子也分为对应的主干和短语部分,从而得到短语平行语料库和主干平行语料库;最后利用语义词典对两个平行语料库分别进行概念的抽取,得到短语模板和主干模板,进而构建翻译模板库。在翻译测试阶段,利用句子相似度算法在模板库中搜索与输入句匹配的模板,然后采用主干模板和短语模板结合的方式进行翻译:利用主干模板翻译输入句的主干部分,利用短语模板翻译输入句中复杂的名词短语,最后得到译文。翻译中使用的语句相似度算法是基于字符序列的相似度算法,选取词语相似度和句子长度差作为特征函数,并利用NIST工具对其进行训练,得到优化的参数组合。实验选取一组双语平行语料构建翻译模板库,并分别作了闭式和开式的翻译测试。实验结果表明,与泛化的EBMT方法相比,基于短语模板的EBMT方法可以减少模板库的规模,提高模板的翻译能力:其开式测试正确率为77.0%,高于泛化的EBMT的正确率51.5%。本文的研究可以应用于实际的机器翻译系统中。
其他文献
数据挖掘(Data Mining)是近年来十分热门的一个学科,是指从存放在数据库、数据仓库或其他信息库中的大量数据中提取隐含的、未知的、有潜在应用价值的信息或模式的过程,被认
行人检测是计算机视觉领域的研究热点之一,它在智能交通、智能机器人、人体行为分析等领域有广泛的应用,随着科技的进步,近年来,在航拍图像和受害者营救等新兴领域中开始应用
非线性科学是研究非线性现象共性的一门新兴的交叉学科,其主要研究内容包括孤子、混沌和分形,同这三个概念相对应的理论共同构成了非线性这门学科的理论基础。本文侧重研究了
伴随着税收信息化管理工作的深度推进,随着金税工程被列为国家电子政务“十二金”工程之一,税收信息化建设得到了长足发展。各级国税系统陆续开发了一系列应用、管理软件,积
脑电图数据分析是脑研究的一个重要研究方法,通过对人脑脑电波信息的分析研究可以发现许多不为我们所知的结果和解释人类行为的一些现象。通过脑电分析还可以掌握人类大脑活
利用激光扫描获取到的深度数据进行场景的三维重建在数字考古、数字娱乐等许多领域都具有广阔的应用前景。近年来随着激光扫描仪成本的降低和激光扫描技术的发展,基于激光扫描
本文从CSCD技术的网络化需求入手,分析Web Services概念体系在协同设计中的作用,将Web Services和CSCD技术应用于变压器结构设计,提出了一种基于Web Services的CSCD在变压器设计中的应用体系结构。在分析协同设计系统架构的基础上,对协同设计的关键技术,如协同感知方法、冲突消解算法等进行了研究,建立了协同设计中支持产品的全域信息模型;同时,对协同设计进行了过程建模。
P2P电子商务在现实生活中发挥了越来越重要的作用。基于P2P的电子商务较之C/S体系下的电子商务,在灵活性、可扩展性、系统健壮性及投入成本等方面都具很强的竞争优势。但在方
图书馆是人们获取知识和信息的主要来源,图书馆的主要宗旨就是全心全意为读者服务。随着信息技术和网络技术的飞速发展,给图书馆的服务带来了新的挑战。为了提高服务质量和工作
本文分析了B/S架构MIS系统的安全需求,研究了MIS页面文件和数据库系统的保护技术。使用信息摘要、数字签名等方法和外挂轮询技术对传统页面保护策略进行了改进,提高了对MIS页