论文部分内容阅读
未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上,提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息,引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布,并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率,具有较强的推广能力。