基于实例的简单句汉英机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zgs352262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的计算速度、存储容量的不断提高,基于实例的机器翻译(Example-Based Machine Translation,EBMT)技术研究越来越受到研究者的青睐.基于实例的机器翻译充分利用原有实例的翻译信息,因而克服了基于规则的机器翻译(Rule-Based Machine Translation,RBMT)在知识获取方面的困难.基于实例的简单句汉英机器翻译技术综合运用了各种自然语言处理技术,以双语语料为主、单语语料为辅,借助单语语料增加翻译实例的覆盖率.该文探索实现了一个简单句汉英机器翻译系统.其基本流程是:对用户或系统输入的汉语句子或句子片断,首先通过句子相似度计算模块从双语资源中检索匹配的句子,并从中获取翻译片段.当匹配失败时,再求助于单语资源,最后由译句生成模块将上述获取的翻译片段组合成目标句输出.为此,该文研究的主要内容包括三个部分:大规模单语语料的索引及检索;句子相似度计算;句子片断的获取及译句生成.针对大规模单语语料的索引及检索,该文采用经典的倒排表数据结构,通过二级索引文件来组织索引.为满足对大规模单语语料的检索效率的需要,引入了词频信息,同时针对英语关键字的特点对检索关键字的组织给出了一些技巧.句子相似度计算部分根据该文的研究内容,为了降低系统复杂度,在不影响该文界定的最终目标的情况下,只考虑语义层次上的相似,并引入了《HowNet》及《同义词词林》,在动态规划算法基础上引入词汇间距离信息提出了基于改进的编辑距离算法.句子片断的获取及译句生成模块综合了基于"相同与差异"的机译单元的自动提取思想和基于评价函数(Score Function)的目标片断获取算法,设计了一种采用混合模式的一体化句子片断获取算法.译句生成部分考虑到该文针对的是简单句翻译,故采用线性排列结合必要的目标语言语法规则的方法来实现.最后该文还介绍了整个翻译系统的实现和试验结果及其评价.
其他文献
XML作为一种功能强大的标记语言,已经成为Web上数据表示和数据交换的一个主要标准.然而,目前大量的商业数据仍然存储在关系数据库当中,因此,以XML的形式发布关系数据成为了一
该文首先介绍了语义图像检索的历史和研究现状,阐述了构建语义图像检索系统的几个关键技术.并对其中面向对象的图像内容表示模型和图像语义抽象层次、图像内容表示方法、图像
面向服务的体系结构(Service Oriented Architecture,SOA)提供了一种标准的编程模型,使得驻留在网络上的软件组件能够被发布(Publish),发现(Discover)和调用(Invoke).作为SOA
分布式虚拟环境(DVE,DistributedVirtualEnvironment)是将虚拟环境技术与现在的互联网技术相结合,在一组以网络互联的计算机上同时运行虚拟环境系统的技术。在分布式虚拟环境中
该文的研究,涉及主动网络的关键安全机制及应用.提出利用可插入模块方式设计主动网络动态可扩展安全原型,实现了加密、授权、验证和代码撤消等方面的安全.加密解决了主动代码
我们针对当前武警部队执勤中勤务组织不严密,查勤制度不落实,执勤实施不正规,执勤中“常见病”和“多发病”屡禁不止的实际,结合武警部队特点,研究开发了多媒体哨位查勤监控系统。
本文探讨在没有QoSs保证的IP网络中,如何根据反向信道反馈的网络状态信息,自适应调整视频编码器的输出码率,实现既合理利用网络资源又不会促使网络拥塞的基于信源的实时视频传输
J2EE应用服务器作为现今一种分布式计算平台,已成为基于Web的企业应用的核心部分,它帮助应用程序处理事务、安全等非业务逻辑,提供应用程序的运行环境.为了加强和完善企业对
动态心电图(DCG Dynamic Electrcardiograph)是心电信息学的重要组成部分,也是心血管疾病诊断领域中的重要监测手段,广泛应用于临床诊断及科研.在计算机分析大量动态心电信号
该文主要研究主动轮廓线跟踪的模型及算法.基于物理学的主动轮廓线模型从哈密顿原理和拉格朗日方程出发,假定在序列图像中运动的目标轮廓线具有质量,通过建模它的动能、来自