论文部分内容阅读
随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要的任务。时间表达式在自然语言处理领域有着非常广泛的应用。在主题检测与跟踪任务中,可以用时间来定位事件发生的先后顺序;在自动问答系统中,可以用来回答和时间相关的问题,如“多久,何时”;在机器翻译任务中,时间顺序的定位可以让译文更加通顺易读;甚至在网页结构分析方面,也有研究利用时间表达式特征提高网页分析精度。时间表达式识别技术主要分为两类:基于机器学习的序列标注方法和基于规则的方法。本文分别对这两类方法进行了深入而细致的研究。对于序列标注方法,本文介绍了目前主流的有监督学习模型:条件最大熵和条件随机场,并且分别使用两种模型实现了完整的中文时间表达式识别系统。实验结果显示,虽然序列标注方法在命名实体识别领域占据主流地位,但是对于时间表达式识别任务,基于条件最大熵模型构建的系统F-score达到79.1%,基于条件随机场模型构建的系统F-score达到79.5%,两者都无法很有效的完成时间表达式识别任务。目前,时间表达式识别领域,最为广泛使用的仍然是经典的基于规则的方法,本文也针对基于规则的方法进行了深入的探索。首先,构建人工规则库;然后,为了提高召回率,解决人工消耗问题,设计了基于训练语料自动学习规则的时间表达式识别算法,这样做充分利用了训练语料中大量的已标注信息;接着,为了提高正确率,本文又结合错误驱动思想进行规则剪枝,削减了规则自动学习过程所带来的“噪声”;最终,为了进一步提高系统整体识别性能,提出“时间基元”概念,并将自然语言处理领域中的分词技术应用到“时间基元”规则的构建中来,实验结果显示,该算法显著的提高了时间表达式识别的整体性能。“自动构建时间基元规则库”算法是本文的主要创新工作,它是一种基于正则文法的时间表达式识别算法:它基于“时间基元”进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.8%。此外,本文提出的算法具有很好的通用性和扩展性,它可以有效利用训练语料自动构建特定领域高精度的规则库,进而完成实体识别任务。最终,结合上述研究成果,实现了完整的基于“自动构建时间基元规则库”算法的中文时间表达式识别系统。