论文部分内容阅读
机器翻译是自然语言处理的一个重要研究领域,在当今信息社会及军事部门有着广泛的应用前景。本文以英汉机器翻译系统为目标,对翻译机制、源语言分析、实例模式匹配、结构转换与目标生成等几个方面的关键技术和方法进行了研究,提出了一些解决问题的新观点和新方法,建立了具有较高翻译正确率的英汉机器翻译系统。本文主要完成了以下工作: 1、提出了基于转换与基于实例模式相结合的机器翻译方法。在翻译机制方面,研究了现有的各种机器翻译方法,比较各自的优缺点并结合现有资源和工作实际,提出了基于转换与基于实例模式相结合(TB-EPB)的机器翻译方法。该方法继承了基于转换方法的稳定性和基于实例方法译文质量高的特点。基于实例模式方法是基于实例方法的扩展,在词法和浅层句法分析后,输入句子与实例模式库在多个层次上匹配,并产生译文。评测和实验结果显示,译文质量综合评价值达到87.5,平均翻译速度为63.64单词/秒,译文正确率达到88%。 2、设计了一个基于规则的词法分析器。结合系统模型,研究并设计了一个基于规则的词法分析器,以及贯穿整个机器翻译过程的语言学知识源——综合词典。设计了词条检索的哈希算法,用形式语言描述了与该词法分析器相关的各种规则知识和数据结构。介绍了词法分析中形态预处理、形态分析、未收录词处理、词组分析和词性标注等各子模块的分析算法。 3、提出了一种新的词性标注融合策略——相关投票法。词性标注是机器翻译系统中的一项基础工作。本文对四种基于语料库的词性标注方法进行了深入研究,并在此基础上提出了一种新的词性标注融合策略——相关投票法,从理论上分析了该方法的优越性,并与其它融合策略进行了对比实验。实验结果表明,应用融合策略可以更加全面地描述词性标注知识,从而更好地完成词性标注任务:在几种融合策略中,相关投票法是最优秀的,它使标注的平均错误率降低27.85%。 4、提出了基于粗糙集的基本名词短语识别方法。基本名词短语(BaseNP)识别是自然语言浅层分析的主要研究内容之一。本文提出的基于粗糙集的基本名词短语识别方法用粗糙集理论解决BaseNP标注问题,并在此基础上用一个有限状态转换器实现BaseNP识别。论文介绍了基于粗糙集的规则学习方法和相应的算法,以及BaseNP标注和识别的算法流程;给出了详细的实验步骤和结果;通过实例冲突问题的解决,提高了识别效果;并与几种典型方法进行了比较与分析。结果表明,基于粗糙集的方法能够发现特征问的依赖性,并从整体上优化规则,BaseNP识别的Fβ值达到92.32%。 5、提出了基于扩展的CFG和GLR算法的浅层句法分析器。浅层句法分析是指短语级的自然语言句法分析,是基于转换和基于实例模式两种翻译方法共同的基础。本文提出的