基于短语的统计翻译中短语对抽取方法和调序模型研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：yediwuqiang

【摘要】

：

机器翻译(Machine Translation,MT)是指用计算机实现从一种语言到另一种语言的文本或者语音的自动翻译。在以知识经济为主要特征的当今社会中，日益频繁的国际交流和不断加快的

【作者】

：

何彦青

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2009年期

【关键词】

：

统计机器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器翻译(Machine Translation,MT)是指用计算机实现从一种语言到另一种语言的文本或者语音的自动翻译。在以知识经济为主要特征的当今社会中，日益频繁的国际交流和不断加快的全球化进程使得跨语言的信息交换总量急剧增加，不同国家和地区之间原本存在的自然语言屏障显得越发突出。机器翻译作为一门能够突破语言障碍的计算机技术，在经济发展和社会生活中发挥着越来越重要的作用。　　迄今为止，机器翻译方法发展到现在，基于统计的机器翻译方法逐渐占据了主流地位。在基于统计的翻译方法中，基于短语的翻译模型仍然是研究的热点。但是，基于短语的翻译方法中有三个主要问题影响了它的发展：短语表的构建鲁棒性差；短语的连续性使之缺乏泛化能力；以及短语的重排序能力弱等。本论文的研究重点定位在为基于短语的统计机器翻译模型建立高性能的短语抽取方法和短语重排序模型，从而改善基于短语的统计机器翻译系统性能。　　论文的主要工作归纳如下：　　 (1)提出了基于“松弛尺度”的短语抽取方法。短语表的构建是基于短语的统计翻译方法中的关键技术。目前以Och提出的短语对抽取方法应用最为广泛，但它过分依赖于词对齐的结果，因而只能抽取与词对齐完全相容的短语对。为此我们提出了一种基于“松弛尺度”的短语抽取方法，对那些与词对齐不能完全相容的短语对，结合词性标注信息和词典信息来判断是否进行抽取。由于该方法放松了“完全相容”的限制，能为更多的源语言短语找到对应的目标短语，挖掘出了平行语料中更多的翻译知识，从而有助于提高基于短语的统计机器翻译质量。　　 (2)提出了一种泛化的重排序模型，在括号转录文法(Bracketing TransductionGrammar，BTG)中引入非连续短语，从而增加了括号转录文法中短语的泛化能力。为了克服传统的基于短语的统计翻译模型中连续短语泛化能力差的弱点，我们提出了一种具有泛化能力的重排序模型(GREM)，为括号转录文法引入非连续短语，增加了该文法短语的泛化能力，使用规则组合连续短语和非连续短语以便于获取尽可能多的连续的目标翻译。该模型不仅可以获取短语的局部和全局重排序规则，而且借助非连续短语进一步增强了短语的泛化能力。　　 (3)提出了一种基于多层短语的重排序策略。受层次翻译模型的启发，基于多层短语的重排序策略，根据不同短语的特性相应地使用不同的重排序模型。该策略将源语言长句分割为多层短语，在不同层次的短语上应用不同的重排序模型来获取最终的目标翻译。该模型很容易将风格不同的短语重排序模型(例如，分层短语重排序模型、BTG风格的重排序模型和单调翻译的重排序模型等)融合在一起，甚至能够整合更为复杂的重排序模型(例如，基于语言学句法的重排序模型)，并将其控制在较小的范围内，而在更大的范围内则使用较为简单的重排序模型，从而达到平衡翻译性能和翻译速度的目的。　　综上所述，本论文面向基于短语的统计翻译模型在短语表的构建、连续短语的泛化和重排序模型的设计等方面进行了深入的研究，提出的方法有效地改善了基于短语的统计机器翻译系统的性能，为进一步探索新的翻译方法奠定了良好的基础。

其他文献

复杂场景中的视频运动目标检测

运动目标检测是指，监控系统自动判断视频序列中是否有运动目标，当有运动目标出现时，自动确定其位置、形状。运动目标检测是构成智能监控系统的基础环节，能否准确完整的提取运动目

学位

视频监控运动目标检测步态预测阴影去除漏检修复

无位置传感器永磁同步电动机驱动控制策略研究

永磁同步电动机在数控机床、工业机器人等领域中得到了日益广泛的应用。传统的同步电机调速系统大都采用自控变频，对于自控式变频调速，系统需要在电机轴上安装转子位置检测器来

学位

永磁同步电机永磁同步电机驱动控制驱动控制矢量控制矢量控制无位置传感器无位置传感器滑模观测器滑模观测器调速系统调速系统

水冷磁体控制系统设计

稳态强磁场装置是国家“十一五”重大科技基础设施建设项目,目的是为我国的科学研究提供理想的稳态强磁场极端实验条件和满足多学科实验需求的实验测试系统。中央控制系统是

学位

几种智能精确末制导律的研究

导弹导引系统是一个具有非线性、时变性和模型不确定性的复杂系统。近年来，随着拦截目标速度和机动性能的不断提高，导弹导引系统的制导任务变得越来越复杂，使得传统的末制导律已

学位

智能精确末制导律数学模型制导精度模糊控制导弹导引系统

基于知识抽取的多目标粒子群算法及其在环境经济调度中的研究

电力系统环境经济调度问题是一个多目标优化问题，该问题往往含有多个相互冲突的目标函数，使得该问题的求解非常困难。很多优化算法都被用来求解该问题，多目标粒子群算法作为一种

学位

电力系统环境经济调度多目标粒子群算法知识抽取

目标跟踪算法及其实时实现技术研究

实时目标跟踪是模式识别、图像处理、计算机视觉、武器制导等领域的重要课题，而且在工业、军事和科学研究方面都具有广泛的应用。相关跟踪是目前使用最广泛的跟踪算法。但传统

学位

目标跟踪算法实时实现技术差值分解归一化互相关Gabor小波

无人机飞控系统硬件设计与数据融合算法研究

由于具有高度的灵活性和很强的适应性，无人直升机在军用和民用方面的应用价值日益增强，进行无人直升机飞行控制技术的研究和飞行控制系统研制具有广泛的应用前景和极其重要的现

学位

无人直升机无人直升机飞行控制系统飞行控制系统硬件设计硬件设计组合导航组合导航卡尔曼滤波卡尔曼滤波数据融合算法数据融合算法

数控系统加减速控制方法的研究与应用

数控加工是一种高效率、高精度和高柔性化的自动加工方法，可有效的解决复杂、精密、小批多变零件的加工问题，是现代自动化、柔性化及数字化生产加工技术的基础与关键技术。数控

学位

数控机床数控机床数控系统数控系统加减速控制加减速控制插补算法插补算法五轴联动五轴联动

基于多帧图像的超分辨率重建算法研究

图像的超分辨率重建，是通过融合同一场景下具有相互位移的多帧低分辨率图像间的非冗余信息，并在融合的过程中尽可能消除模糊以及噪声等多种降质因素对图像质量的影响，重建得到一

学位

图像重建正则项自适应阈值质量评价

基于惯导、GPS导航与信息融合在自动驾驶汽车中的应用

自主驾驶与辅助导航是目前智能汽车领域的一个热点，而INS/GPS组合导航系统是当前导航领域的热点之一，是目前定位精度最高的组合模式。　　惯性导航系统（INS）可连续提供信息，短时

学位

惯性导航系统惯性导航系统全球定位系统全球定位系统组合导航组合导航信息融合信息融合卡尔曼滤波卡尔曼滤波自动驾驶自动驾驶智能汽车智能汽车

基于短语的统计翻译中短语对抽取方法和调序模型研究

与本文相关的学术论文