论文部分内容阅读
本文研究了在基于统计语言模型的汉语统一分词框架下的新词识别问题。主要有以下两部分工作:
(1)总结已有的新词识别特征及新词识别方法,引入一个语素产率特征,把新词识别问题看作二分问题,采用SVM算法,比较了各个特征对于新词识别相对贡献大小,尝试不同的特征组合来识别新词。
(2)讨论了目前新词识别研究中存在的分词性能和效率较低的问题,针对缺乏含新词信息的语料这一难题,提出模拟新词的办法,着重研究了新词分布的情况,寻找适合模拟新词的模型,构筑了基于统一分词框架的在线新词识别系统,并给出新的分词系统在五种不同标准的测试集上的评测结果。
测试结果表明语素产率特征的引入提高了新词识别的查全率和查准率,新的分词系统可以同时实现汉语自动分词和新词识别,提高了新词识别效率和原框架的分词性能。特别,有关中文新词分布规律的研究对其他研究有理论参考价值。