论文部分内容阅读
机器翻译的发展从最早提出理论设想到今天已经经历了六十多年的历史了。如今主流的机器翻译算法主要分成两大阵营:基于规则以及基于统计数据的机器翻译。基于规则的机器翻译核心是依赖于预先人工设置的语法规则模块作为语法分析的凭据;而对于基于统计数据的机器翻译来说,翻译的核心就是网络爬虫的文件扫描归类机制,以及该机制所创建的动态参考数据库。也就是说,基于规则的机器翻译是模块性系统,而基于统计数据的机器翻译是基于过程类系统。本论文从乔姆斯基语法的视角下阐述基于规则的机器翻译系统独特的模块化处理优势以及在具体自然语言处理上的不足,并从奈达对翻译过程的理论的视角下分析基于统计数据的机器翻译系统的过程优势以及语法分析不稳定的劣势。本论文通过结合基于规则的翻译系统的“图书馆”和“语法分析器”以及基于统计数据的翻译系统的“爬虫”(也称漫游)机制来建立一个集成模块优势和过程优势的系统,通过将图书馆的语法机制融入奈达的翻译步骤来解决基于统计数据翻译系统中的语法分析不确定性,弥补前者在自然语言处理上的不足以及后者在语法分析上的薄弱。本文最后勾勒了机器发展将来以图书馆和语法分析器为借鉴,以爬虫建立后备资料数据的趋势,并在系统和接口硬件上集成的趋势以及展望