论文部分内容阅读
长而复杂的句子在英语中特别是在科技英语中是具有典型性的,长达数行、数十行,包含几十个乃至上百个单词的句子,在科技英语文章中屡见不鲜,在标准、规范和专利说明书中尤其多见。这种长句往往包含若干个从句和非谓语动词短语,而这些从句和短语又往往互相制约、互相依附,从而形成从句中有短语,短语中带从句的复杂语言现象。这种长句对英语本身的逻辑性和严谨性起了很大的作用,但却给机器翻译带来相当大的困难。 本课题研究旨在从技术角度透析了机器翻译中存在的主要难点之一,即长句处理问题,通过对目前机译系统中存在的各种长句处理技术进行分析之后,指出了它们的局限性,即:或者一味地将长句进行分析而很少考虑长句的固有特点,或者采用经验主义的方法只是根据长句的表面结构进行处理而很少研究其内在规律。这样都导致长句处理能力的局限。 通过对语言学知识内在规律的研究,我们提出了一个语言单位与翻译单位关系的七层模型图,指出合理的翻译单位应基于句子层面级,并在此基础上提出了处理长句的总体方案:先将长句进行语法语义上的等价分解而变成一系列简单的分句,利用IMT/EC系统的翻译机制进行逐个翻译,最后利用各分句之间的关系合成各分句的译文从而得到整个长句的译文。这样,无论是长句结构方面的特性还是长句中各分句内部的语法语义方面的特性都得到了充分的考虑。