论文部分内容阅读
提出了一种基于词频的机械匹配自动分词算法,以长度为首优先,结合词频进行分词,未匹配字串进一步应用改进的正向和逆向的最大匹配法,结合熵率分词分别标注所有可能为词的元素。在匹配时完全忽略了5个字以上的词语,解决了随长度增大复杂度呈指数增长这一难题。实验表明,该方法改善了分词正确率,提高了切分效率。