判别式拼写校正及其在机器翻译中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wudifeng20008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拼写错误是很多语言中常见的问题,也是很多自然语言处理任务中的一个重要模块。网络的普及让信息泛滥,人们被大量的信息淹没,变得只注重效率,而不注重拼写的是否正确。在这样的背景下,文本的错误特别是网络文本或口语文本的拼写错误变得更加严重,文本校正技术有助于缓解这一问题。与此同时,搜索引擎、机器翻译等应用的普及使得拼写校正任务变得更加重要。英语的拼写校正经过学者们多年的研究,已经取得了一些成果。但是,传统的方法在语言信息的利用、整句的校正和语言的可扩展性等方面仍有缺陷。本文研究了基于判别式的拼写校正技术,提出了一个基于序列标注和重排序的双层拼写校正模型,实用性高,扩展性强,同时把该模型用于机器翻译任务中去。  本文的研究主要分为三个部分:基于序列标注的上下文无关拼写校正,基于重排序的上下文相关拼写校正,以及拼写校正在机器翻译中的应用。  具体的说,本文研究的内容主要如下:  1.基于序列标注的上下文无关拼写校正  重点研究无上下文的孤立词的拼写校正问题,通过捕捉词内基本单位之间的联系,把孤立词的校正转化一个序列标注问题,通过判别式训练,提取词内特征,对词内每个基本单位预测可能的标注,最后通过解码约束得到整个词的校正候选,选择其中分数最高的作为校正结果。本文提出的基于序列标注的模型在英语、维语、蒙语等语言上都做了实验,校正性能超过了传统方法,并表现出较强的可扩展性。  2.基于重排序的上下文相关拼写校正  重点研究基于上下文信息的拼写校正问题,在第一层模型为每个词产生候选的基础上,通过感知机判别式训练,提取上下文语言特征,在句子级上进行重排序。解码时,利用已训好的参数和non-local特征[22]进行快速解码,找出一条最优的句子路径。本文提出的双层模型在英语上做了实验,实验表明我们的模型可以超过传统的噪声信道模型,同时,双层模型的结合能够在句子级进行整句的拼写校正,同时保持较低的误报率,可以有效减少OOV数量,具有很大的实用价值。  3.拼写校正在机器翻译中的应用  我们将提出的拼写校正技术应用到机器翻译中,一方面,我们通过把拼写校正技术直接作为预处理工具,对开发集、测试集分别做预处理之后再进行传统的翻译流程。另一方面,我们通过把拼写校正生成的lattice加入到解码过程,由翻译解码器从中挑选一条最优路径。实验表明,我们的拼写校正模型有效地缓解了OOV现象,提高了机器翻译性能。
其他文献
传统的 Client/Server 网络应用模式中服务器的性能瓶颈和单点失效问题制约了网络的发展和资源的充分利用,而P2P(Peer to Peer)对等计算应用模式弥补了这方面的不足,在资源共享
网络入侵检测系统通过监听网络连接对到达的包组进行安全性分析。随着现代网络技术的发展,网络速度逐步大幅提高,千兆以太网己成为了大型网络的标准,这对网络入侵检测带来了新的
空间环境数据汇集子系统依托于国家发展与改革委员会批复的国家级重点科研项目—东半球空间环境地基综合监测子午链工程(简称“子午工程”),是该工程中数据与通信分系统的一
学位
随着网络应用的不断扩展,越来越多的信息需要借助于网络进行传播和发送,对信息传送的安全性要求成为网络社会的焦点中的焦点。现代计算机加密技术就是为适应网络安全的需要应运
本文对道路交通标志识别方法进行了探讨。本研究在充分分析了交通标志的颜色和几何形状这两种先验特征的基础上,提出了颜色形状对的概念并据此构造了一种新的交通标志颜色—几
现代远程教育是随着现代信息技术的发展而产生的一种新型教育方式,它已经成为国际教育发展的共同趋势。远程教育平台是实施远程教育的基础,其性能和功能直接决定了远程教育的方
绕月探测工程的科学目标是:获取月球表面三维影像;分析月球表面有用元素及物质类型的含量和分布等。嫦娥探月工程包括运行管理,数据接收,数据预处理,数据管理和科学应用与研究
学位
随着计算机软硬件技术近年来的迅猛发展,特别是计算机芯片以摩尔定律的速度不停更新换代,以及现代操作系统技术的发展,传统的BIOS固件技术已经暴露出较大的缺陷.一种新的BIOS
下一代移动通信网络将是一个多种接入方式融合的全IP网络,虽然该网络具有IP网络所固有的简单性、灵活性等优势,然而IP网络尽力而为的服务方式却使其难以满足下一代移动通信业
目前,随着集成电路设计等技术的发展、应用系统复杂性的增加,传统的同步系统设计方法将面临巨大的技术挑战。另一方面,在设计具有分布、并发等特点的实时控制系统时,对系统的