基于短语的统计机器翻译研究与应用

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:ggf9988998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的发展离不开人工智能的推动,人工智能领域中的一个重要课题就是机器翻译。机器翻译是实现全球无障碍交际的重要技术手段,社会需求迫切,潜在市场可观。正因为如此,一部分语言学家和人工智能专家将科研与技术力量瞄准了这一跨世纪的课题。采用新的翻译方法来发展机器翻译技术,建立可信赖的机器翻译系统已成为当务之急。   纵观机器翻译的整个发展历程,机器翻译的主流方法一直是基于规则的方法,上世纪90年代起,随着高性能计算机的出现和联机语料的不再缺乏,语料库方法重新复苏并引起了广泛关注。目前,语料库方法主要包括:基手统计和基于实例的方法,两者都是使用语料作为翻译知识的来源。其中,前者的研究目前已取得了较大进展,已不仅局限于原先IBM提出的基于词的统计翻译方法,进而发展到基于短语乃至句法的统计翻译方法,翻译效果有了明显提高。   本文针对基于短语的统计机器翻译技术,重点研究了以下几方面内容:   1.阐明了该课题研究的意义,回顾了计算语言学、机器翻译的发展历史及现状,陈述了本文的主要研究内容。   2.对机器翻译的各种技术及分类进行了较为系统和详细的综述,在此基础上,重点介绍了基于短语的统计机器翻译模型主要技术及其研究情况,包括语言模型和翻译模型的建立,以及解码器的原理和设计思路,并以此作为下面设计基于短语的统计机器翻译系统的基础和依据。   3.针对基于短语的统计机器翻译模型,按照语料预处理、建立语言模型、翻译模型、构建解码器等步骤搭建了一个基于短语的机器翻译系统,对其中部分模块进行了优化,并根据系统需要使用Java编程实现了部分功能,如语料的抽取、规范化等,提高了翻译的效率。   4.建立了一个基于词的统计机器翻译系统,使用同样的语料库进行训练,用于和前者进行比较。   5.采用自动评测的方法对两个系统的性能进行了测试。同时,通过翻译的实际效果和自动评测结果的比较,证明了基于短语韵系统在同等条件下较基于词的系统更优。另外,还尝试对基于短语的统计机器翻译系统参数进行了优化。   6.对论文整体进行了总结,并对今后的工作进行了规划和展望。
其他文献
工作流引擎是工作流管理的技术核心。采用工作流引擎为支撑平台的业务管理系统具有高度的灵活性,它可以按照企业的具体需求,快速灵活地生成应用软件系统,并且在企业业务流程发生
近年来,基于图像的自相似性和低秩矩阵分解模型的去噪方法逐渐成为图像处理领域的研究热点。图像的自相似性说明图像中存在着很多重复的结构,可以通过非局部算法查找具有相似结
生物电磁场是电磁学和生物系统研究的交叉领域,是目前世界范围内的一个热门课题。低频脉冲电磁场的特点是变化率高,由于高的变化率能在生物组织内感应有效电流,具有产生生物学效
随着科学技术的不断发展,智能移动机器人在人们生活中的需求和应用越来越多,近几年移动机器人在各种灾害发生后的救援行动中表现突出,越来越受到人们的重视。搜索和救援机器人是
由于间歇反应过程大滞后,不稳定等特性,要完成间歇反应过程的控制并非易事。采用常规PID不能实现高水平的控制效果,不能保证产品的愈来愈高的质量要求。随着计算机和微电子技术
作为信息显示技术最为核心的部件之一,高性能图形引擎已列入国家“十一五”科技创新重点发展项目,其旨在从根本上改变高端图形显示方面对发达国家的长期依赖关系。尤其是随着信
随着航天技术的发展,对图像分辨率的要求也越来越高。为了提高分辨率,所有的航天大国都重视遥感器成像系统的研究,包括硬件方法、软件方法、硬件与软件相结合的方法研究。常规提
计算机和通信技术的快速发展,以及信息高速公路Internet的兴起,人们普遍认识到信息及资源共享的重要意义。因此,基于Internet/Intranet技术的应用系统被广泛采用。而在Internet/
本文研究级联H桥型逆变器带故障运行时的控制方法,研究的主要内容一方面是在现有结构的基础上,应用改进的调制方式或者优化的算法,提高故障后系统的输出性能,主要是提高输出电压
系统稳定性在科学研究和工程设计中发挥着很重要的角色,许多学者都在不停地探索新的更有效的方法来判断系统的稳定性。在这篇论文中,我们将研究离散系统下的一个判断系统稳定性