论文部分内容阅读
命名实体翻译是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。同时,随着互联网的发展,网络资源日益丰富,如何将海量的网络资源用于命名实体翻译任务,以提高实体翻译的性能,成为了一个研究热点。
本文设计了一个借助网络信息进行命名实体翻译的整体框架,并重点研究了借助网络信息的汉英反向音译以及基于网络挖掘的汉英机构名翻译的方法。主要工作归纳如下:
[1]借助网络信息进行汉英命名实体翻译的系统框架
由于不同类别的命名实体具有其自身的翻译特点和规律,本文通过分析人名、地名和机构名的翻译特点和难点以及网络挖掘的基本方法,设计了利用网络信息进行汉英命名实体翻译的系统框架。
[2]提出了借助网络信息辅助汉英反向音译的方法
音译是根据发音的相似性进行翻译的方法。使用统计模型进行汉英反向音译存在两个主要问题,一是反向音译过程难以恢复正向音译造成的信息损失。二是音译具有一定的习惯性,当出现音译标准不一致时,统计模型难以选择合适的翻译方案。针对以上两个问题,本文提出了一种借助网络信息辅助汉英反向音译的方法。首先构造一个从汉语拼音到英文音节的统计音译模型,对输入的汉语音译名产生若干最优翻译候选;然后借助一个海量英文单词表,将翻译候选修正为与之最相近的英文单词;最后,将修正后的翻译候选直接作为查询检索英文单语网页,通过在搜索引擎返回的网页片段中进行英文命名实体识别,并借助网页计数等特征,对翻译候选进行重排序。实验结果表明,相对于传统的统计音译模型,本文提出的方法可以将汉英反向音译的精确率提高38.81%。
[3]提出了基于网络挖掘的汉英机构名翻译的方法
机构名是组成结构最复杂、变化形式最多的一类命名实体,使用统计模型进行机构名翻译存在词语选择、词序安排等诸多困难,性能较低。本文提出一种基于网络挖掘的汉英机构名翻译方法,直接从汉英混合网页中抽取中文机构名的英文翻译。该方法主要解决两个问题,其一是如何有效地检索到英文翻译存在的网页;其二是如何将英文翻译抽取出来。首先使用基于语块划分的分词方法对中文机构名进行分词,从而有效地避免未登录词的干扰,提高机构名分词的正确率;然后使用一种启发式方法从中文机构名分词序列中选择若干词语翻译为英文,并加入到查询中以检索汉英混合语言网页;最后,使用非对称对齐方法将中文机构名与返回的网页片段中的所有英文单词序列进行对齐,抽取出最优片段作为英文翻译。实验证明,相对于传统的统计翻译模型,基于网络挖掘的方法可以将机构名翻译的正确率提高30.42%。