论文部分内容阅读
口语自动翻译是语音、语言处理技术重要的应用领域之一,开展这项研究不仅具有重要的理论研究意义,而且具有极大实用价值。
翻译知识自动获取是口语翻译系统中的关键技术之一,翻译知识的质量对整个翻译系统有至关重要的影响。本文针对翻译知识自动获取中的语料库建设、翻译模板自动获取方法以及基于掌上电脑的快速翻译方法等问题进行了深入研究和探索,主要成果和创新归纳如下:
1.对大规模平衡语料库建设及词汇知识获取进行了专门研究。针对欧盟项目LC-STAR的具体任务,首先对国内外现有的语料库进行了研究与分析,然后对大规模真实文本进行了统计与分析,包括对来自不同网站的语料进行领域分布统计,并对不同时间段的《人民日报》语料的词汇信息及其变化情况进行了统计与分析等。结合以上统计分析的结果,最终得到通用领域语料库建设的领域分布与时间分布的原则,在基于该原则建立的大规模平衡语料库的基础上开发了面向通用领域多语言口语翻译的包含多种信息的电子词典。
2.在翻译模板自动获取方法方面,提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法。该算法是一种无监督的、基于统计的、数据驱动的方法。在该方法中,首先通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类;然后,利用动态规划的方法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。该方法不仅可以避免人工标注的困难,自动实现模板获取,而且由于约束函数的作用,获取的模板还可以保持较好的句法结构,有利于它们在翻译系统中的进一步应用。实验表明,该方法具有较高的正确率和较强的有效性。
3.面向限定领域的特定任务翻译服务,在有限资源的掌上电脑(Personal Digital Assistant,PDA)上实现快速语音翻译这一实际问题,我们提出了一种基于suffixarrays数据结构的快速翻译算法。该方法采用suffixarrays这种数据结构实现了翻译实例的快速检索,是这种数据结构及相应的算法在机器翻译领域的首次尝试。在该算法的基础之上我们建立了面向旅游信息查询领域的基于PDA的汉英语音翻译系统。实验表明,基于该方法的语音翻译系统不仅具有较好的实时性和比较高的正确率,能正确处理一些语音识别产生的错误,而且在限定领域内可以达到较高的覆盖率,为语音翻译的进一步实用化进行了有益的探索。