论文部分内容阅读
随着互联网文化和经济的飞速发展和信息爆炸时代的到来,能够在短时间内处理大规模文本且从中挖掘和抽取语言信息的计算语言学快速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫切的需要,以计算语言学为主的多语言语料库切分和标注技术越来越受到语言学专家的重视。要使语料库真正为提高自然语言处理的水平服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行语法、语义、语用分析的基础和必要前提,如何解决语料库的词性标注问题仍是当今的一项重要的基础工作。汉语词性标注的成果包括基于统计和规则两种处理方法。语言学工作者们常用的统计算法模型,如最大熵模型、隐马尔可夫模型和决策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达到较为理想的结果。本文在介绍了提出的汉语词性标注方案也是规则和统计结合的方法,首先在极大熵标注模型的基础上给出了一个汉语词性标注方案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依靠算法和规则模板的常规方法,从原标注系统的标注错误样本中获取上下文,利用上下文信息形成的概率特征函数计算出容易出错的词的特征概率。另外,提出在统计的基础上加入外部知识库和分类器的联合修正算法,较好地完成了针对兼类词复杂类项的标注任务,缩短了模型运行占用的时间。