基于篇章分析的统计机器翻译方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:smalldong224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译发展迅速,涌现出很多新的模型和方法,在简单句或者句式固定的翻译上取得了较好的结果,并获得了一定的应用,但是在复杂长句的翻译上仍然存在连贯性差、可读性不高的问题。随着语言资源的不断丰富,人们对翻译质量的要求不断提高,如何改善复杂长句乃至篇章的译文质量逐渐吸引了研究人员的视线。目前对于这类问题的相关研究大多集中于词汇层面的衔接性和连贯性上,而缺乏对句子逻辑结构的深层次理解,因此译文在语法层面的衔接性、逻辑语义层面的完整性和一致性上依然存在问题,并且影响了句子的语义连贯性。因此,研究如何自动获取篇章的逻辑结构信息,并借助篇章信息解决译文的语法衔接、逻辑语义等一系列问题,具有重要的理论意义和应用价值。  本文从面向篇章翻译的基本需求出发,对如何自动获取源语言(这里针对汉语)的篇章结构和逻辑关系进行了深入研究。在此基础上,本文提出了基于修辞结构的翻译方法,并借助复句结构和词对齐信息对翻译中的语法衔接现象建立了翻译模型,最后探讨了如何利用双语的篇章单元信息来保持译文篇章单元的完整性。  论文的主要工作和创新点归纳如下:  1、设计实现了基于最大熵方法的汉语篇章一体化分析器,为面向汉语篇章的机器翻译系统提供了关键的预处理语言学信息:基本篇章单元、篇章结构和篇章关系。  就基于篇章的统计机器翻译而言,构建一个一体化的篇章分析器是必要条件。一方面,目前有关汉语篇章自动分析的工作大都只针对篇章分析中某个单独的任务,比如切分篇章单元,或者识别复句关系;另一方面,目前相关研究工作所依据的理论框架不尽相同,标注标准很不统一,仅将已有的汉语篇章切分或识别的工作简单地串联起来不利于后续的分析和使用。因此,考虑到目前机器翻译任务中(特别是汉-英翻译)存在大量的复句,本文针对汉语复句设计了一体化的自动分析器,在统一的理论标注框架下完成了以下三项任务:(1)汉语篇章单元的切分:采用序列标注的方法自动切分汉语篇章单元;(2)汉语篇章结构的分析:本文提出了基于最大熵模型的篇章结构参数估计方法,并设计了词汇化和句法信息相结合的特征,以CYK解码的方式自底向上地构建篇章结构;(3)篇章关系的识别:在篇章结构树的基础上对篇章关系进行分类和识别。实验结果显示,篇章单元识别效果能达到0.89的F值,当复句关系不超过三层时,复句结构和关系的分析效果较好。  2、提出了一种基于修辞结构的翻译方法,该方法将源语言篇章单元和显式篇章关系融入翻译模型,保证了译文和源语言在修辞关系上的一致性。  目前主流的翻译系统并未考虑如何让译文忠实地反映源语言句子的修辞关系和修辞结构,仅根据翻译模型、语言模型等特征挑选译文,这可能会导致源语言句子的语义完整性在翻译过程中遭到破坏,更无法保证译文和源语言具有一致的修辞关系。本文从显式修辞关系出发,提出了一种基于修辞结构的翻译框架,并将其与基于短语的翻译模型相结合以适应复杂长句的翻译。该方法将源语言篇章单元和显式篇章关系纳入翻译模型的考虑范围,在一定程度上保证了源语言基本篇章单元的完整性,并在译文中保持了源语言句子的修辞结构。实验结果表明,该方法能有效地改善译文质量,增强了译文的可读性。  3、提出了一种基于汉语复句结构的增强语法衔接性的翻译方法,该方法能够提高解码器对源语言逻辑结构的敏感性,显著地改善译文的语法衔接性。  目前在机器翻译领域,专门针对语法衔接性建模的工作比较少,有些研究工作虽然系统地研究了衔接词的翻译方法,但在整句翻译的质量上并未取得显著的提高,因为篇章连接问题不仅仅是衔接词的翻译。本文从源语言的篇章结构和逻辑关系的角度出发,利用源语言复句结构和词对齐设计了一种基于篇章复句结构的翻译规则,这种翻译规则能够将目标语言的衔接词和源语言的篇章结构显式地关联起来。另外,我们还提出了一种从源语言篇章结构到目标语言衔接词的转换模型,并将其融入到翻译的对数线性框架中,以鼓励解码器生成语法衔接性更好的译文。实验结果表明,该方法能从双语平行语料中自动学习出与结构相关的衔接词,并能显著改善译文的质量。  4、提出了一种译文篇章单元完整性的度量方法,该方法能从目标语言的角度衡量译文篇章单元的完整性,帮助翻译系统有效地改善译文质量。  目前利用目标端语言学知识的研究工作大多只利用了词汇层面或者句法层面的知识,没有从篇章层面衡量翻译候选的好坏,可能会使译文语义片段不完整,从而难以形成合法的译文篇章结构。针对以上问题,本文提出了一种衡量译文基本篇章单元完整性的方法。该方法的主要思想是:从标注了篇章单元信息的目标语言语料中自动学习如何预测译文的篇章单元完整性,并在源语言篇章单元的约束下对翻译候选的完整性进行打分。该方法不依赖于特定的翻译模型,具有良好的扩展性。但其性能受限于双语基本篇章单元一一对应的假设,面对真实语料中不完全一一对应的情况,我们进一步提出了适应性解码的解决办法,根据翻译过程中的各项特征表现,自动判断当前句子是否应采用篇章单元完整性模型。实验结果证明,在翻译系统中结合完整性模型和适应性解码可以进一步提高翻译系统的鲁棒性和译文质量。
其他文献
异源图像匹配是对来自不同传感器、不同时间或不同视角的两幅或多幅图像,在空间中寻找一种变换,使其在空间位置上达到一致。红外与可见光图像的匹配属于异源图像匹配,在自主导航
作者曾在深圳达实自动化工程有限公司进行校企联合培养一年,在该公司参与了一个大型楼宇自控系统项目.该论文便是以该项目为背景,研究了楼宇自控系统的设计与具体实现.该文在
随着精密跟踪技术的发展,光电跟踪系统的性能和稳定性越来越受到国内外学者的普遍关注。在许多领域都需要光电经纬仪长期工作在低速或超低速情况下,比如光电经纬仪在深空探测
该论文对多层前向神经网络的算法进行了研究,并提出了基于数字处理芯片DSP的神 经网络实现方案.论文主要包括三个部分:首先,通过数值模拟的研究方法分析了权值初值幅值和隐层
能源是人类赖以生存的基础,随着社会进步和科技发展,能源问题日益凸显。锂电池均衡管理技术作为锂电池电源管理的关键技术之一,对研究能源问题有着重要的实际和经济意义。本文主
深度图象处理方法的研究,作为三维计算机视觉系统的核心内容,已有近三十年的研究历史.并随着科学技术的迅猛发展,在航空航天、机器人系统以及机械制造等需要进行三维景物分析
生产调度是企业组织和管理生产的核心,实现优化调度对于企业提高生产效率、降低能耗、提高设备利用率、降低成本等方面有着重大的作用。同时,随着市场需求越来越多样化和个性化,多产品厂间歇生产过程作为一种经典的生产方式,其调度问题越来越受到人们的重视。本文主要研究不同存储方式下的多产品厂间歇生产调度问题,通过设计和改进粒子群优化算法,找到更有效的方法求出高效的调度方案,并通过大量的仿真实验来说明改进算法的有
运动目标检测与跟踪作为计算机视觉领域的关键技术,已广泛应用于人机交互、交通安全、视频监控、公共安全管理和军事装备等多个领域。本文在对运动目标检测与跟踪算法进行研究
现代工业过程中所产生的人量过程数据(流量、温度、压力、浓度和组分等)是过程建模、控制与优化的基础,是工业过程安全进行的保障。因此,必须确保过程数据的准确性和可靠性。
该文根据中国证券市场基础分析的应用状况,参考国内外有关公司投资价值的基础分析理论与方法,提出了一个公司投资价值分析支持系统.对于系统中所应用的评价模型、分析模型、