交互式口语翻译方法及相关问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:hawkwangyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步、社会的发展、全球化进程的加快和国际交流的日益频繁,消除不同语言的障碍也显得愈加重要。机器翻译作为解决这一问题的有效手段,受到了研究者们的普遍重视,近几年来得到了快速发展。   机器翻译就是利用计算机实现从一种语言到另一种语言自动转换的技术。目前,基于统计的翻译方法是研究的热点。机器翻译经过几十年的发展已经取得了巨大的进步,但是仍然有很多理论问题和实现技术问题没有得到解决,全自动高质量的翻译仍然难以获得。本论文就是面向口语翻译中未登录词和未登录短语的翻译问题,以及统计翻译中的数据选择问题开展相关研究。这项研究具有重要的理论意义和应用价值。   论文的主要工作和创新归纳如下:   (1)提出并实现了针对未登录词的交互式翻译方法。未登录词是口语中普遍存在的现象,通常是句子中的关键信息点,无法正确翻译的话会对系统的翻译性能造成很大的影响。但是由于数据稀疏问题,系统难以自动解决。因此,我们提出了针对未登录词的交互式翻译方法。该方法首先通过人机交互,确定未登录词的边界;其次利用分类器判断未登录词的类别;然后调用对应翻译模块翻译未登录词,生成候选翻译;最后由用户判断未登录词的候选翻译是否正确。经人机交互后成功翻译的未登录词将被保存进记忆库,再次遇到相同的问题时系统可以自动处理。由于系统使用者为机器翻译系统提供了未登录词的知识,因而该方法有效提高了译文的质量。   (2)提出并实现了针对未登录短语的交互式翻译方法。由于基于短语的统计翻译系统采用短语精确匹配的策略,大量短语由于得不到精确匹配成为了未登录短语,同时短语表中很多语义相同的相似短语得不到充分地利用。我们提出了针对未登录短语的交互式翻译方法。该方法首先采用短语模糊匹配的方法为未登录短语在短语表中查找相似短语,并生成扩展句子;然后利用组合分类器判断哪些句子的翻译质量得到了提高;最后采用基于有限状态自动机的对话管理模型进行人机交互,由用户选择语义保持不变的扩展句子。由于该方法充分利用了短语表中的相似短语,达到了提高翻译系统性能的目的。   (3)提出并实现了面向统计翻译系统参数训练的数据选择方法。统计翻译系统的性能严重依赖于语料库的数量和质量。以往的工作集中于如何收集更多的训练语料,而我们的研究关注于如何提高语料的质量。在训练集语料上,我们采用基于长度比值和翻译比率的策略过滤噪音策略,然后采用基于未见短语覆盖度的方法选择训练数据。在开发集语料上,我们提出了基于短语覆盖度和基于句子结构覆盖度的数据选择方法。采用我们的方法,可以提取出信息量更高的句对,从而在不降低系统性能的基础上,减少了训练集语料和开发集语料的规模。   综上所述,本论文在口语翻译中的未登录词和未登录短语翻译问题,以及统计翻译系统的数据选择问题上进行了深入研究,提出的交互式翻译方法有效解决了未登录词和未登录短语问题,数据选择方法可以显著减少训练集语料和开发集语料的规模,提高了口语翻译系统的性能,在口语翻译系统的实用化方面进行了有益的探索。
其他文献
随着捷联惯性技术和惯性传感器的不断发展,基于微惯性器件的导航系统正在成为导航领域的一个研究热点。本文研究基于MEMS惯性器件的高动态捷联惯导算法,首先介绍了捷联惯导系统
多摄像机监控网络已在重点公共区域广泛铺设。近年来,公众参与社会公共活动的积极性不断提高,各种人群聚集现象在公共场所频繁出现,随之而来的安全隐患问题日益突出。相关部门在
传统的工程检测仪器由分立的各功能模块部分通过有线的方式组成,设备体积大、功耗等级高、连接复杂、抗干扰能力差。随着嵌入式技术、微电子技术和无线传输技术的不断更新,工
时序数据是在应用中经常遇到的一类数据类型,研究对时序数据的描述与理解具有重要的实际意义。对时序数据的特征提取是研究的基础问题之一,它关系到其后续的更高级任务的成败。
对个人隐性知识的转化与应用研究具有重要的理论和现实意义,本文新提出了一种基于数据挖掘与知识分离的个人隐性知识的间接转化方法,并对转化后的知识进行应用研究。首先基于
目标匹配识别技术是数字图像处理和模式识别中的一个重要研究方向,无论在军事上还是在民用方面都有着重要的应用价值。该问题的有效解决,可以使自动目标识别和目标跟踪等相关
遥感图像变化检测技术在自然灾害监测、国土资源规划管理、军事目标打击评估等众多军民领域都有重要的应用价值。虽然遥感图像变化检测研究已经取得了很大的进步,但仍然处于探
电弧炉炼钢是主要的工业炼钢方式,由于电弧炉是具有三相强耦合、高度非线性和不确定性的复杂被控对象,同时目前对电弧炉的控制要求越来越严格,本文提出了几种自适应模糊控制的方
近年来,随着3D电影和虚拟现实的发展,光场技术引起了相关研究人员的极大关注。光场是空间中光线的集合,采集并显示光场就能从视觉上重现三维世界。然而光场是高维度数据,其采集和
随着控制系统复杂度的增加和规模的扩大,设计单一系统的控制算法已不能满足当前需求。近年来分布式一致性控制成为解决这一问题的有效方法,其重点讨论如何设计分布式控制器使多