论文部分内容阅读
随着互联网的迅猛发展,网络中新词大量涌现。本文提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高新词的召回率。在此基础上结合分析新词的内部模式,对垃圾串进行过滤以确定新词。本文利用训练垃圾词典的方法对单字串垃圾进行过滤,用改进的互信息与独立成词概率结合的方法确定多字词模式的新词。由此,大幅度提高了新词识别的准确率。