论文部分内容阅读
中文分词方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。基于词典的方法利用词典作为主要的资源,这类方法不需要考虑领域自适应性的问题,它只需要有相关领域的高质量词典即可,但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题。基于统计的中文分词方法往往不具有良好的领域自适应性.本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性.实验表明,这种方法具有良好的领域自适应性.当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%.最终优化后的分词速度也得到了很大的改善.