论文部分内容阅读
俄语是一种形态丰富的语言,其形态切分相关语料较为缺乏或带有噪声,这些都为俄语的形态切分研究带来困难。我们将此问题建模为经典的序列标注模型,首先自动切分小规模俄汉双语词典提取出形素字典作为训练数据,然后针对这种语言特点训练了一个基于最大熵的标注模型。在联合国六国平行语料中抽取的7万俄汉对齐句对上进行的机器翻译实验证明,我们的方法使得BLEU值相对没有形态切分的基线系统提高了1.92%。