论文部分内容阅读
该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益.互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法.不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%.该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%.