论文部分内容阅读
口语翻译是语音、语言技术领域重要的研究方向之一,具有巨大的应用价值。口语翻译涉及到语言学、计算机科学、语音识别、语音合成和通讯等多种学科和技术,开展这项研究具有非常重要的科学意义。
随着各国人们在文化,经济,体育等各方面的日常交流日趋频繁,口语翻译越来越受到人们的关注。本文针对基于中间语言的口语翻译方法中的口语解析问题和基于统计模型的口语翻译方法中的短语翻译对自动抽取问题以及口语翻译系统实验平台建设等几个方面做了相关的研究和实现工作,主要内容归纳为如下几点:
1.论文在面向中间转换格式(InterchangeFormat,IF)【"NESPOLE",2002】的口语解析方法研究方面,提出了一种基于语义分类树的汉语口语浅层语义解析方法,用来获取汉语口语句子的浅层语义领域行为(IF的一部分)。该方法利用统计模型从训练语料中自动获取语义规则构造语义分类树,并利用语义分类树对句子中和领域行为密切相关的词语进行解析,然后对多个词的解析结果利用统计解析模型进行选择和组合,从而生成句子的领域行为表示。规则自动获取方法避免了人工制定规则的繁琐性和主观性,保证了解析具有较高的鲁棒性;利用统计模型对领域行为各部分进行组合,避免了对IF表达能力的影响;与HMM相比,语义分类树扩大了解析窗口,更好地利用了上下文信息。实验结果表明:这种方法在限定领域内进行汉语口语浅层语义解析具有较高的准确率和鲁棒性。
2.基于统计模型的口语翻译方法是目前口语翻译研究领域中非常重要的方法。基于短语的统计翻译方法与基于单个词的统计翻译方法相比,可以更好地处理句子中短语内部词语之间的关系,从而有效地提高机器翻译系统的性能。基于短语的统计翻译方法之一把短语翻译对作为知识源加入到系统中,这样整个系统的性能对于使用的短语翻译对的质量具有非常大的依赖性,针对这个问题,论文提出了一种改进的基于HMM的短语翻译对抽取方法,从大规模训练语料中自动抽取高质量的短语翻译对,作为统计口语翻译的知识源。这种方法首先利用HMM对双语句子进行双向对齐,然后根据对齐的结果抽取短语翻译对,针对不同的对齐情况利用词语翻译概率作不同的后处理工作,提高了短语翻译对的质量。实验结果证明,这种方法抽取的短语翻译对具有较高的质量。
3.在上述工作和已有技术的基础上,我们建立了英汉口语翻译系统实验平台,集成了语音识别、语音合成和多种口语翻译方法,并实现了多种翻译方法之间的有效结合,为口语翻译的深入研究提供了一个较好的实验环境。