论文部分内容阅读
自然语言复句(长句)的自动分解与合成对机器翻译技术的应用具有重要意义。这是因为机器翻译作为一种复杂的自然语言处理技术,迄今尚未达到十分成熟的程度。许多机器翻译系统还不能很好地分析处理结构较为复杂的复句,但能够处理好简单句。因此,研究如何将自然语言复句自动分解为一组简单句以及将一组简单句自动合成一个复句,对机器翻译的实用化和推广应用,将具有极大的实用价值。
本文针对英汉机器翻译应用的需求,对英语复句的自动分解进行了研究,提出了基于块语法分析的英文复句自动分解方法。为此,首先研究分析了块语法的理论机制,探讨了其对识别分析英语复句结构的可行性;进而以形式化的角度分析了英语复句的结构,并以块语法的规则形式开发了英语块语法,设计实现了英语复句自动分解系统,进行了试验测试和结果分析。试验表明:基于块语法分析的英语复句自动分解的技术方法是可行的。
本文的创新之处是:提出了基于块语法分析的英文复句自动分解方法,该方法综合利用词性标注、命名实体识别、关联词识别、标点符号分析等各种关键的句子处理技术,在对句子进行语块分析的基础上将复句进行切分简化处理。为英语复句分解结果提供一个形式化表示,最后生成的简单句组合中有原复句结构信息表示。