论文部分内容阅读
开放域命名实体抽取是近年来信息抽取领域的研究热点,其主要任务是从多源异构数据中抽取并构建开放类别命名实体列表。这一任务涉及自然语言处理、机器学习、模式分类、信息抽取等多个领域的关键技术,因此具有重要的学术研究意义。另外,该技术也是查询分析、广告匹配等应用中的关键技术,因此具有重要的应用价值。
开放域命名实体抽取任务包括两个核心问题:第一,如何得到高质量的种子实体。第二,如何准确计算候选实体的置信度。本论文针对上述两个核心问题展开研究,论文的主要工作和创新点归纳如下:
1、提出了一组种子实体质量评估指标与相应度量方法,部分解决了种子质量评估问题
种子实体质量好坏对开放域命名实体抽取系统的结果有非常大的影响(不同种子的差别可以达到40%[Vyas,2009]),因此研究如何度量种子实体的质量非常重要。本文提出了一组融合实体语义知识的种子实体质量评估指标:语义相关度、歧义度以及流行度,并为每个指标设计了相应的计算方法。本项研究成果部分解决了种子质量评估问题。实验结果表明,与使用随机种子相比,该方法取得了9.2%的性能提升。
2、提出了融合语义知识的高质量新种子生成方法,可以有效获得高质量种子实体
人工输入的初始种子实体通常质量比较差[Vyas,2009],因此需要研究如何生成高质量新种子的方法。结合上述种子质量评估指标,本文提出了一种高质量新种子生成方法。该方法能够从初始种子出发,自动生成高质量的新种子。本项研究成果可以有效地获得高质量种子实体。实验结果表明,与使用随机种子相比,该方法取得了7.3%的性能提升。
3、提出了基于图随机游走的候选实体置信度计算方法,部分解决了候选实体置信度计算问题
利用模板进行实体抽取时,为更准确地计算候选实体置信度,本文提出了基于图随机游走的候选实体置信度计算方法。本文认为,模板的质量对于评估候选实体的置信度有重要影响,而候选实体的置信度对于评估模板的质量也有重要作用。因此本文使用候选实体和模板之间的抽取/被抽取关系构建二分图,在图上使用随机游走方法综合度量候选实体的置信度与模板的质量。实验表明,相比于基于模板向量空间的候选实体置信度计算方法,该方法取得了4.4%的性能提升。
利用上下文统计信息进行实体抽取时,为更准确地计算候选实体置信度,本文提出了基于实体空间和基于文档空间的候选实体置信度计算方法。实验表明,与基于上下文统计信息的置信度计算方法相比,该方法可以分别获得0.8%和4.9%的性能提升。
4、提出了融合模板与网络标签扩展的开放域命名实体抽取方法,部分解决了如何准确描述候选实体语义问题
为更准确地刻画候选实体的语义信息,本文首先提出了一种基于网络标签扩展的开放域命名实体抽取方法。与传统基于模板的方法相比,该方法可以更精确地抽取候选实体从而达到较高的准确率。同时为了弥补网络标签扩展方法在覆盖率上的不足,本文将基于模板的抽取方法与基于网络标签扩展的抽取方法相融合,提出了一种融合模板与网络标签扩展的开放域命名实体抽取方法。实验表明,相比于传统基于模板的抽取方法,该方法最高可以取得12.1%的性能提升。