论文部分内容阅读
大规模的命名实体翻译等价对可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抽取命名实体翻译等价对的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。同平行语料库相比较,可比语料库的限制少、易于更新、并且容易获得。因此现在可比语料中知识的挖掘已成为研究的热点。本文提出一种在可比语料库中,基于多特征的中英命名实体翻译等价对抽取方法。具体而言,首先从中英可比语料库中分别抽取中文命名实体和英文命名实体,然后通过计算中英命名实体之间多个特征的特征值得到命名实体匹配对,最后使用基于多特征二值分类模型来判断命名实体匹配对是否为正确的命名实体翻译等价对。其中在得到命名实体匹配对时,本文使用了判别训练算法来进行多特征的融合。最终得到正确率较高的命名实体翻译等价对集合。本文设计和实现了基于上述方法的命名实体翻译等价对抽取系统,系统的输入是中英可比语料;输出是中英文的命名实体翻译等价对集合。系统分为4个模块:(1)中英文命名实体抽取模块;(2)多个特征的命名实体翻译等价对匹配模块;(3)多特征融合模块;(4)命名实体翻译等价对对齐模块。中英文命名实体抽取模块,分别使用中文命名实体抽取工具和英文命名实体抽取工具,从可比较语料中抽取中文命名实体和英文命名实体。多个特征的命名实体翻译等价对匹配模块,使用翻译模型特征、音译模型特征、匹配模型特征等六个特征计算得到文命名实体和英文命名实体的匹配对。多特征融合模块,使用判别训练算法最小样本风险(MSR)算法,计算各个特征的特征参数进行特征融合。命名实体翻译等价对对齐模块,将对齐问题转化为分类问题,采用支持向量机(SVM)分类模型,使用翻译模型、音译模型等特征,进行二值分类,从而判断出匹配对是否为命名实体翻译等价对。本文的主要贡献有:(1)提出了一套能从可比较语料库中抽取命名实体翻译等价对的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合多特征、特征融合、对齐模型等模块,该框架可以获得比同类方法更好的性能。