论文部分内容阅读
新词语的自动识别是语言监测工作中的重要环节,更是新词语研究的重要手段。这一技术的深入发展可以有效地促进汉语信息处理、词典编纂等工作的开展。对于新词语的自动识别,其本质在于新、旧字符串的对比。这些字符串就需要从前景语料和背景语料中分别获取。不论是采用基于规则的方法还是基于统计的方法,在字符串获取的过程中都会产生大量的垃圾串,尤其是从前景语料获取的字符串,这些垃圾串的大量存在都会严重地影响新词语的识别效果。因此,通过分析新词语的不同特征,提出基于特征过滤的字符串获取方法,这一方法是在字符串获取之前,将一些构词能力差的语言成分删除,这样可以有效地减少字符串的产生,以便进行下一步处理。在垃圾串过滤阶段,根据新词语的构成特点,提出基于二元结构的过滤方法,该方法可以有效过滤由三个或三个以上分词碎片构成的垃圾串。在过滤的基础上,对候选串进行多方面统计特征值的考查:从成词概率、构词模式概率及平均互信息的计算结果判断该候选串的有效性。在不使用统计模型的情况下,召回率与准确率分别为86.22%和0.15%;在使用统计模式之后,召回率与准确率分别达到43.86%和49.92%。