论文部分内容阅读
为提高中文信息处理中的新词识别效率,提出一种基于上下文感知的新词识别算法。首先基于网络新词的特点,对网络文本进行N元(N-Gram)切分预处理,然后利用局部匹配预测(PPM)算法对中文新词进行识别,最后采用LRU替换算法对识别出的新词进行入库处理。实验表明,较之当今几个主流的分词机制,该算法具有较高的识别率和召回率。