面向统计机器翻译的结构对齐及结构转换技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:same786
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结构对齐无论对于基于实例的机器翻译还是基于统计的机器翻译都是一项基础性的研究工作。高质量的对齐短语是进行基于语料库的机器翻译获取高质量译文的重要保证。结构转换是结构对齐在统计机器翻译中的应用。本文主要研究结构对齐以及结构转换技术。具体来讲主要包括以下几个部分内容:  1.研究基于双语句法分析的结构对齐技术。基于双语句法分析的结构对齐依赖于双边句法分析和词汇对齐结果,将对齐限制在句法树结点之间,虽然抽取的短语较少,但是正确率较高。本文给出双语结构对齐的规范,设计了一种双语结构对齐的算法,并实现结构对齐的人工校正工具StructCheck。  2.研究基于源语言句法分析的短语对齐技术。基于源语言句法分析的方法克服了不同语系的语言句法分析差异较大的情况,可以抽取更多的短语。本文采用基于中心语块扩展的方法进行短语对齐,评分时选择短语直译率、短语翻译概率和短语长度差异三个特征,对候选译文采用N-Best策略进行分析。实验证明该方法取得较好的效果。  3.设计并实现基于元结构互译的结构转换模型。该模型建立在Koehn基于短语的统计机器翻译思想的基础上。本文给出元结构的概念,从源语言句法树中抽取元结构组,根据词汇对齐找出对应的目标语言的元结构组,通过计算元结构组翻译概率,得到元结构组转换表。解码时采用beam-search方法进行扩展译文,得到目标语言的元结构组序列,并根据结构转换过程的元结构组翻译顺序对源语言进行调序,进而提高基于统计的机器翻译系统的性能。
其他文献
移动Ad hoc网络是由一组带有无线通信收发装置的移动终端节点组成的一个多跳、临时和无中心的网络,它可以在任何时候,任何地点快速构建起来,并且不需要现有基础网络设施的支
我国信息化建设的推进和现代信息技术的迅速发展,对通信信息系统的架构和实现方式提出了新的要求。针对通信信息系统架构模式中的不足,本文提出了建立基于Web Services技术的通
随着计算机技术的迅速发展,越来越多的企业采用了信息化手段对企业进行管理,这就标志着许多工作需要靠计算机按照一定的执行规则自动实现,特别是企业业务流程的自动化或半自动化
智能化信息检索是互联网时代最重要的应用之一。现有的机器学习理论与方法难以适应网络环境下数据的动态性和用户兴趣的多样性,成为智能化信息检索研究中的一个薄弱环节。因
随着高速网络的飞速发展,无线技术的不断进步,人们对普适系统的要求越来越迫切。具有更高带宽、融合诸多类型有线和无线网络的下一代互联网NGI(Next GenerationIntemet)满足了
随着网络规模的不断扩大,网络用户的不断增多,网络知识的不断普及,网络和信息的安全受到越来越大的威胁。信息的机密性、完整性和可用性遭到严重侵害的事件时有发生,信息安全
随着计算机和网络技术的飞速发展,工作流在企业信息化领域的应用越来越广泛。工作流管理是一个被业界广泛应用并迅速发展的技术,主要是通过调用有关的信息资源和人力资源来协调
随着计算机技术和Internet的飞速发展,嵌入式技术和设备在我国国民经济和国防建设的各个方面存在着广泛的应用领域,有着巨大的市场。可以说它是信息技术的一个新的发展,是信息产
随着飞行器智能化和信息化水平的不断提高,飞行控制系统变得越来越复杂,对嵌入式系统的处理能力、工作温度范围、抗辐照能力、功耗、浮点运算精度、可靠性、稳定性提出了更高
随着汽车产业和交通运输业的发展,安全成为了一个不可忽视的问题。根据交通部门的统计,由于疲劳驾驶造成的交通事故占将近总数的30%,因此各国的科研机构和各大汽车公司都开展了对