论文部分内容阅读
在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响。