论文部分内容阅读
中文分词是自然语言处理的基础性问题。条件随机场模型分词过程中出现的切分粒度过小和多字粘连造成的错分问题,是影响分词结果的两个主要原因。提出了一个基于字词分类的层次分词模型,该模型采用多部有效词典进行处理,在外层分词系统中解决切分粒度过小问题;在内层核心层,条件随机场分词后再处理多字粘连问题。实验结果表明,采用加入多词典的字词结合层次分类模型F-测度值有较大的提高,有助于得到好的分词结果。