基于短语的统计翻译中短语对抽取方法和调序模型研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:yediwuqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation,MT)是指用计算机实现从一种语言到另一种语言的文本或者语音的自动翻译。在以知识经济为主要特征的当今社会中,日益频繁的国际交流和不断加快的全球化进程使得跨语言的信息交换总量急剧增加,不同国家和地区之间原本存在的自然语言屏障显得越发突出。机器翻译作为一门能够突破语言障碍的计算机技术,在经济发展和社会生活中发挥着越来越重要的作用。   迄今为止,机器翻译方法发展到现在,基于统计的机器翻译方法逐渐占据了主流地位。在基于统计的翻译方法中,基于短语的翻译模型仍然是研究的热点。但是,基于短语的翻译方法中有三个主要问题影响了它的发展:短语表的构建鲁棒性差;短语的连续性使之缺乏泛化能力;以及短语的重排序能力弱等。本论文的研究重点定位在为基于短语的统计机器翻译模型建立高性能的短语抽取方法和短语重排序模型,从而改善基于短语的统计机器翻译系统性能。   论文的主要工作归纳如下:   (1)提出了基于“松弛尺度”的短语抽取方法。短语表的构建是基于短语的统计翻译方法中的关键技术。目前以Och提出的短语对抽取方法应用最为广泛,但它过分依赖于词对齐的结果,因而只能抽取与词对齐完全相容的短语对。为此我们提出了一种基于“松弛尺度”的短语抽取方法,对那些与词对齐不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取。由于该方法放松了“完全相容”的限制,能为更多的源语言短语找到对应的目标短语,挖掘出了平行语料中更多的翻译知识,从而有助于提高基于短语的统计机器翻译质量。   (2)提出了一种泛化的重排序模型,在括号转录文法(Bracketing TransductionGrammar,BTG)中引入非连续短语,从而增加了括号转录文法中短语的泛化能力。为了克服传统的基于短语的统计翻译模型中连续短语泛化能力差的弱点,我们提出了一种具有泛化能力的重排序模型(GREM),为括号转录文法引入非连续短语,增加了该文法短语的泛化能力,使用规则组合连续短语和非连续短语以便于获取尽可能多的连续的目标翻译。该模型不仅可以获取短语的局部和全局重排序规则,而且借助非连续短语进一步增强了短语的泛化能力。   (3)提出了一种基于多层短语的重排序策略。受层次翻译模型的启发,基于多层短语的重排序策略,根据不同短语的特性相应地使用不同的重排序模型。该策略将源语言长句分割为多层短语,在不同层次的短语上应用不同的重排序模型来获取最终的目标翻译。该模型很容易将风格不同的短语重排序模型(例如,分层短语重排序模型、BTG风格的重排序模型和单调翻译的重排序模型等)融合在一起,甚至能够整合更为复杂的重排序模型(例如,基于语言学句法的重排序模型),并将其控制在较小的范围内,而在更大的范围内则使用较为简单的重排序模型,从而达到平衡翻译性能和翻译速度的目的。   综上所述,本论文面向基于短语的统计翻译模型在短语表的构建、连续短语的泛化和重排序模型的设计等方面进行了深入的研究,提出的方法有效地改善了基于短语的统计机器翻译系统的性能,为进一步探索新的翻译方法奠定了良好的基础。
其他文献
运动目标检测是指,监控系统自动判断视频序列中是否有运动目标,当有运动目标出现时,自动确定其位置、形状。运动目标检测是构成智能监控系统的基础环节,能否准确完整的提取运动目
永磁同步电动机在数控机床、工业机器人等领域中得到了日益广泛的应用。传统的同步电机调速系统大都采用自控变频,对于自控式变频调速,系统需要在电机轴上安装转子位置检测器来
稳态强磁场装置是国家“十一五”重大科技基础设施建设项目,目的是为我国的科学研究提供理想的稳态强磁场极端实验条件和满足多学科实验需求的实验测试系统。中央控制系统是
学位
导弹导引系统是一个具有非线性、时变性和模型不确定性的复杂系统。近年来,随着拦截目标速度和机动性能的不断提高,导弹导引系统的制导任务变得越来越复杂,使得传统的末制导律已
电力系统环境经济调度问题是一个多目标优化问题,该问题往往含有多个相互冲突的目标函数,使得该问题的求解非常困难。很多优化算法都被用来求解该问题,多目标粒子群算法作为一种
实时目标跟踪是模式识别、图像处理、计算机视觉、武器制导等领域的重要课题,而且在工业、军事和科学研究方面都具有广泛的应用。相关跟踪是目前使用最广泛的跟踪算法。但传统
由于具有高度的灵活性和很强的适应性,无人直升机在军用和民用方面的应用价值日益增强,进行无人直升机飞行控制技术的研究和飞行控制系统研制具有广泛的应用前景和极其重要的现
数控加工是一种高效率、高精度和高柔性化的自动加工方法,可有效的解决复杂、精密、小批多变零件的加工问题,是现代自动化、柔性化及数字化生产加工技术的基础与关键技术。数控
图像的超分辨率重建,是通过融合同一场景下具有相互位移的多帧低分辨率图像间的非冗余信息,并在融合的过程中尽可能消除模糊以及噪声等多种降质因素对图像质量的影响,重建得到一
自主驾驶与辅助导航是目前智能汽车领域的一个热点,而INS/GPS组合导航系统是当前导航领域的热点之一,是目前定位精度最高的组合模式。   惯性导航系统(INS)可连续提供信息,短时