论文部分内容阅读
为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组合等九套模板.结果表明在复合模板中包含基于字的二元模板比不包含的效果好,而一元二元复合模板效果最好且在初始精度很高的情况下仍带来明显性能提升,使HMM在SIGHAN 2006 MSRA开放测试上的名次由第六位上升到第三位.同时在上述九套模板上进行了基于规则数目和规则得分的裁剪实验,结果表明平均使用9.45%的规则就能达到85.947%的性能提升.