论文部分内容阅读
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的