论文部分内容阅读
口语自动翻译是语音、语言技术领域重要的应用领域之一,具有重要的理论研究意义和实用价值,受到人们越来越多的关注,而口语解析技术是口语翻译系统中的关键部分之一,本文针对口语解析中的语料分析、语块分析和语义解析等问题进行了深入研究,主要成果和创新包括:
1.面向口语解析、以大规模口语语料为基础,针对口语中非规范语言现象进行了统计和分析。首先,对于冗余现象,统计了各种冗余现象中出现频率较高的词汇,分析了冗余现象发生的条件并给出了对冗余现象如何进行处理的建议;其次,对于重复现象,分析了重复现象的特点,并归纳了重复现象发生的各种模式,以便后续的处理。
2.针对口语翻译系统中口语解析的任务特点,提出了口语中出现频率较高的四种语块:名词语块、动词语块、形容词语块和介词语块,并给出了各自的界定标准及准则。分析比较了当前语块分析的各种方法并根据口语语块特点,提出并实现了一种统计口语语块分析方法,并通过不同的实验对其进行了对比分析。
3.提出并实现了一种基于概念语块的统计口语解析方法,该方法具有规则与隐马尔可夫模型(HMM)相结合的特点,既可以实现对句子深层语义分析,同时又保证了一定的鲁棒性。实验表明,该方法能够有效地对口语句子进行解析,具有较高的正确率和较好的鲁棒性。另外,针对统计解析模型HMM,我们提出了一种改进的参数训练方法,该方法能够显著地提高模型解析的正确率。
4.基于上述工作,我们建立了面向中间转换格式(InterchangeFormat,IF)的汉语口语解析系统实验平台,以此为基础,配合美国CMU和德国UKA成功集成了面向2008北京奥运会的多语言口语翻译系统。