论文部分内容阅读
随着信息时代的到来,互联网上包含来自世界各地的大量文化、科技、生活、娱乐信息。为了让人们能够轻松的检索、阅读各种语言撰写的信息,机器翻译、跨语言信息检索和抽取等自然语言处理技术成为了迫切的需求。音译是这些跨语言自然语言处理技术的重要基础;是大多数命名实体和未登录词的翻译方式;人名作为命名实体和未登录词的主要成分是音译的主体。本文将主要研究基于统计的人名音译方法,并结合基于规则的方法实现多语言间人名音译。音译主要分为基于规则的方法和基于统计的方法两类:基于规则的方法通过人工建立双语音节切分和对齐的规则实现音译;基于统计的方法通过对大量双语人名对语料上进行统计分析来构建对齐模型和解码模型,也是目前音译的主流研究方法。本课题主要研究基于统计的音译方法,同时结合基于规则的方法实现英、西班牙、俄、日四种语言到中文的人名音译,最后搭建在线音译系统整合这四个音译模型。本文的主要的工作与贡献点如下:(1)针对基于统计音译方法中的对齐模型常遇到的过拟合问题和人名多起源问题,提出非参数贝叶斯方法“紧密耦合的狄利克雷混合模型(coupledDirichlet process mixture model, cDPMM)”进行音译的聚类和对齐。cDPMM采用狄利克雷过程进行人名对的双语切分,实现音节的对齐;再根据人名起源(双语人名对的音译对齐相似度)利用狄利克雷混合模型实现双语人名对的无监督聚类。cDPMM将双语切分对齐和人名聚类紧密的耦合到一个模型中,让对齐和聚类的结果在每轮采样中相互作用。(2)采用基于短语的Moses系统的解码器进行音译解码,对抽取的短语表融合:短语起源区分度、短语字符数比、短语音节数比三个新特征;我们对音译解码的N-best结果,根据N-grams特征、源和目标人名音节数比、音译系统排序三类特征在log-linear原理下进行重排序。实验结果证明我们的解码特征和重排序方法提高了音译准确率。(3)把提出的基于统计的方法应用到英-中、西班牙-中的人名音译;采用基于统计和规则相结合的方法克服俄-中和日-中的平行语料缺乏问题,实现俄-中、日-中音译。(4)采用基于Django的开源Web框架搭建在线音译系统,整合四个音译模型。