论文部分内容阅读
以条件随机场(CRF)作为构建词义消歧模型库的概率模型,利用CRF分别训练高频义项和低频义项标点句语料,应用生成的模型文件进行消歧实验。通过分析标注结果中的概率值确定阈值,以区分标注正确项和错误项。使用表现较好的模型文件和相应阈值构建面向词义消歧的条件随机场模型库。实验结果证明,对低频义项建模的词义消歧效果优于对高频义项进行建模,可以达到80%以上的正确率,并且可以获得较高的召回率。