论文部分内容阅读
人名音译指利用源语言及目标语言发音规则的异同将源语言形式人名翻译成目标语言形式,在机器翻译、双语语料库对齐等多语言处理任务中有重要作用。本文重点研究如何构建英文来源的英汉人名音译模型及人名来源识别模型。针对英汉人名音译的特点及现有研究存在的问题,提出一种基于音节划分和短语表优化的人名音译方法。本文将人名音译转换为以音节为基本单位的翻译问题,将连续的音节组合看作短语,引入一种基于短语的统计机器翻译方法,实现英汉人名的音译。首先,针对现有音节划分方法存在的问题,提出一种改进的划分方法;其次,训练语料偏小导致短语表中存在杂质信息,提出去除低频词法、基于C-value的除杂法及基于粘结度的除杂法等三种方法优化短语表,实验表明,基于C-value的方法可有效去除短语表的杂质信息;之后,融入汉语人名中首尾字的位置特征,对生成的音译候选重新调整先后顺序,改善了音译候选汉字选取的不合理性;最后,提出在解码阶段引入两阶段音节划分方法,缓解了由于音节划分粒度过大导致在短语表中找不到翻译所引起的音译错误。实验结果表明,通过上述四方面的改进,其音译准确率由63.08%提高到67.62%。不同来源的人名具有不同的发音规则体系,因此,在对人名进行来源识别后再进行音译,其效果会更加准确。本文提出基于发音规则与统计融合的两阶段方法解决人名来源识别问题。首先,利用汉语拼音规则、日语片假名发音规则将人名粗略分为四大类;然后,使用基于统计的方法——朴素贝叶斯分类方法实现最终的语言来源识别。选取基于字符的N-gram语言模型、基于发音单元的N-gram语言模型及基于发音单元的位置特征作为实验的特征,使用不同的特征组合分别进行人名来源识别实验。实验结果表明,给定英文形式人名,判断其来源是汉语、日语还是英语时,使用基于字符的四元模型、基于发音单元的二元模型及基于发音单元的位置特征三者融合后的方法,人名来源识别的效果最优,准确率达到98.39%。