论文部分内容阅读
本文主要研究了通过待消解项识别和全局优化改进共指消解的方法。通过结果反馈及参数调节,共指消解系统能够与不同性能的待消解项识别分类器结合产生不同的共指消解性能。本文将待消解项识别作为一个分类问题,使用最大熵方法构建模型,进行训练和分类。通过使用最大熵模型和70个特征,本文构建了一个消解项分类器。在构建消解项分类器的过程中,本文提出了一种参数调节的方法,通过设置语料比例和概率阈值两个参数,对可消解项进行识别,选取最优的消解项分类器分类器。在进行共指消解工作前,将待消解项识别作为过滤器,能够去除大量不可消解项。本文使用最大熵模型和65个特征构成共指消解的基准系统。这些特征包括词性、语法、语义、句法、形态学等语言学各个方面的信息。在共指消解前,使用消解项分类器对参与共指消解的短语进行识别,过滤掉不可消解项。由于不同性能的消解项分类器与基准系统结合能够产生不同的结果,所以本文从全局的角度出发,通过语料比例和概率阈值这两个参数对消解项分类器进行调节,使共指消解系统性能达到最优。本文还研究了另一种全局优化的方式:使用整数线性规划(ILP)对共指消解进行全局优化。将共指消解问题作为一个优化问题,引入线性规划的方法,对最大熵模型的输出进行进一步的全局优化。本文提出了一种松弛的传递性约束,在应用线性规划时作为可行域约束条件。本文在实验结果部分对基准系统、加入消解项分类器的共指消解系统、使用ILP全局优化的共指消解系统以及Soon和Ng的两种经典共指消解系统进行了比较。在对实验结果评测时,本文使用了MUC、B3、CEAF、BLANC等评测标准对共指消解系统进行评测,并且使用了这些评测标准的平均F值作为共指消解性能的最终衡量标准。本文还研究了使用不同参数的待消解项识别对总体共指消解系统产生的影响。实验结果显示使用了待消解项识别的共指消解系统在综合成绩上要优于其他参与对比的系统。在基准系统的基础上应用待消解项识别后,共指消解的平均F值由50.57%提升到53.35%。