EBMT系统中翻译模板的抽取与匹配

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:labidax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的EBMT(Example-Based Machine Translation,基于实例的机器翻译)方法是建立在大规模的实例库基础之上的,存在着精确匹配率不高,模糊匹配时产生译文质量较差等缺点。利用翻译模板可以有效的解决翻译实例的数据稀疏问题、简化实例库的规模并提高实例匹配的精确率。本文研究了如何利用实例语料库自动获取翻译模板并在其基础之上进行模板匹配的方法。 本文所定义的翻译模板是基于汉语浅层句法分析的,具体包括谓语中心词识别,介词短语识别以及组块识别。浅层句法分析的优点是可以识别出确定性高的部分分析结果,减少句法分析中的歧义,从而降低句法分析的难度。 基于模板的翻译方法的核心问题是模板的抽取与匹配算法。本文在模板抽取过程中首先对翻译实例进行潜层句法分析,根据分析结果得到实例主架模板、介词短语模板以及组块模板。然后为每类模板确定一个中心词,利用中心词索引方式进行各类别模板的独立存储、索引关联,并进行系统模板库的构建。在模板匹配过程中首先对输入句进行模板抽取,然后在系统模板库中检索匹配模板。检索过程中兼顾模板的结构信息及语义信息,在保证模板主架结构相似的情况下再进行语义信息的匹配。匹配时分别以模板中心词作为静态阈值,模板距离及相似度得分作为动态阈值判断模板是否相似。 在对由2386个实例构建的模板库分别进行句子级的封闭测试及组块级的开放测试,准确率分别在94.98%及94.85%以上。实验结果表明,本文提出翻译模板抽取与匹配算法应用于EBMT系统中是可行的。 最后,本文尝试在NiHao中日翻译系统中引入EBMT翻译引擎,对该引擎所使用的翻译模板规范、翻译工作流程进行了详细定义,取得了较好的实验结果。
其他文献
目前,我国已经全面启动了电力市场化改革。为了逐步构建政府监管下的政企分开、公平竞争、开放有序、健康发展的电力市场体系,充分发挥市场配置资源的基础性作用,以进一步提高效
本文提出了一种适用于网格环境的事务处理框架来应对网格对事务处理的迫切需求。 针对网格的特点,提出了短事务和长事务来分别支持不同的网格事务的需求。短事务满足了网格
进入二十一世纪以来,我国的钢铁业迅猛发展,但是代表前沿技术的宽厚板产品的生产依然处于落后的地位。目前,用于大型桥梁、高层建筑以及航空航天业的宽厚板依然依赖于国外进口。
近年来,蓬勃发展的数字信息技术给人类的社会和生活带来了深刻的变化,同时也带来了新的机遇和挑战。在技术不断进步的过程中,数字信息的安全保密问题越来越受到人们的广泛关注。
随着网络技术的应用逐步渗透到许多关键部门,以及电子商务的兴起与广泛应用,信息安全已变得日益重要。安全协议是信息安全的基础,但其正确性和安全性却不容乐观,已有的安全协议往
Web服务的性能是用户在选择Web服务时常会考虑的一个重要因素。用户对未访问过的服务性能并不清楚。因此在选择服务时,常常需要对它们的性能进行预测,来帮助用户选择到满意的服
了解脑的功能是21世纪科学的重大挑战之一。目前的“人类脑计划”旨在加强脑功能的基础研究,并开发用于分析、整合、合成、建模、模拟与提供各种数据的工具。越来越突出的青
随着Internet规模的不断增大,各种各样的网络服务争相涌现,先进的多媒体系统层出不穷。由于实时业务对网络的传输时延、延时抖动等特性较为敏感,当网络上有突发性高的FTP 或者P2
随着嵌入式技术和网络技术的飞速发展,将计算机技术应用到生产、生活的各个领域已经成为人们迫切的需求。本文即是根据仓储行业的具体需求,结合当前先进的嵌入式研究成果,为
随着网络技术的飞速发展,网络安全问题已经日益引起重视。入侵监测系统(IntrusionDetectionSystem以下简称IDS)是一种主动保护自己免受攻击的网络安全技术,是防火墙之后的第二