论文部分内容阅读
逐渐并最终扫除人类语言的障碍,使不同语言和文化背景的人能用母语自由交流,不再受语言不通的限制,这是人类的一大梦想。近年来,逐渐在国际上兴起的语音翻译技术将使这一梦想变成现实。通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。为了能够合理地覆盖真实的语言文本,语音翻译系统需要一部具有数十万条双语机译单元所构成的双语翻译词典,这就需要设计算法从双语文本中自动提取大规模双语翻译词典。 本课题为语音翻译系统中机器翻译的重要组成部分,随着语料库语言学的兴起和机器学习技术的发展,通过机器学习从语料库中自动或半自动获取语言知识和翻译规则,从而实现机器翻译,成为机器翻译的新的突破点。我们在前人研究的基础上,继承了他人研究的优点和长处,改进了一些缺点和不足,创造性地提出了新的算法,构建了适用于语音翻译系统的大型翻译词典原型。 本课题运用了释义词典信息、词根信息、共现概率信息和上下文搭配差异信息等等,并结合阈值和关联度提取的方法,结合中文和口语的特点,依次完成了一词对一词、一词对多词和多词对多词的翻译词典的构建。此外,我们还通过应用多个关联度参数及交换源语言和目标语言的相互关系得到多个翻译词表,进行词典分级,有效地提高了高级别翻译词典的正确率。另外,为了满足超大规模翻译词典构建的需要,我们提出了一个改进提取算法,可以同时覆盖单词单元和多词单元,并使得翻译词典可以在语音翻译系统中直接用于翻译单元替换。 最后,我们对翻译词典的三种通用算法及改进算法进行了性能评估,给出了实验结果及对结果的分析,针对还需要继续研究的问题提出了一些解决的方法。