论文部分内容阅读
当前主流的中文分词与词性标注方法将分词和词性标注问题看成是序列标注问题,通常利用局部特征训练判别式模型。该方法取得了很好的效果,但是与词、词性相关的全局特征并没有被充分的利用。为了更好的处理分词和词性标注的歧义,传统的重排序方法在第一次解码的n_best候选结果集上,利用全局特征进行二次解码,重新选择一个更好的结果。该方法往往需要保留较大的候选结果集,并需要两次解码。本文提出了一种在线重排序方法,将重排序过程融合到一次解码的过程中,充分利用局部和全局特征,在一次解码时利用更多信息以减少搜索错误,选择一个更好的结果。本文在中文宾州树库(CTB5.0)和微软亚洲研究院语料(MSR)上做实验,结果表明,本方法相对于只用局部特征训练的基线系统以及传统的重排序方法都有明显的效果提升。