论文部分内容阅读
实体链指的主要目标是识别上下文中的名称指代哪个现实世界中的实体。具体而言,实体链指是将给定文本中的一个名称字符串映射到知识库中的相应实体上去,如果知识库尚未收录相应实体,则返回空标记。近些年,美国国家标准技术研究所(NIST)举办了多次以实体链指为核心的国际评测任务。实体链指在信息抽取、问答系统、机器翻译、信息检索等多个自然语言任务中都有着广泛的应用。实体链指技术需要解决的问题主要是歧义性,即同一个名称可能对应多个实体,同一个实体也可能有多个名称。实体链指技术的主要工作旨在提高实体链指系统的准确率和效率。高准确率的实体链指结果可以为其他自然语言处理任务提供更为可信的实体映射对象。高效的实体链指系统也是互联网和大数据的直接应用需求。实体链指分为候选生成和消歧两个部分,其核心问题在于如何有效地利用上下文提高准确率和效率。上下文是候选生成和消歧的主要依据。本文基于实体的上下文展开研究。在以往的实体链指研究中,大量的工作集中在如何消歧上面。相比而言,专注于改进候选生成的工作却不多。实际上,候选生成是实体链指的必要步骤。如果生成的候选集合没有包含目标实体,那么消歧部分无法得到正确的链指结果。因此候选生成的召回率成为了消歧召回率的上限。然而如果为了保证候选集合的召回率,一味地增大候选实体数目,又会给消歧带来负担,导致消歧的效率下降。如何在保证召回率的前提下生成小的候选集合是候选生成的主要目标。本文从查询名称周围的上下文入手,搜索共指名称,以获得更高的候选集合召回率。同时,为了获得更小的候选集合,我们提出了一种相似度计算方法,对候选集合进行过滤。实验结果表明,我们提出的基于上下文的候选方法可以有效地降低候选集合的大小,同时提高召回率,从而提高了消歧的效率,减少了过多候选带来的噪声。消歧部分的主要目标是根据上下文推测哪个候选实体是查询名称所指代的对象。针对消歧问题,我们提出了两种解决办法。一种是基于上下文图的消歧方法,另一种是基于实体上下文的概率消歧方法。这两种方法分别从上下文和实体的建模方法入手解决消歧问题。传统的实体链指方法大多基于文本相似度的计算。然而这并不是人在对上下文中的实体消歧的过程中所使用的办法。人结合了背景知识对上下文进行语义层面的分析。在类似Wikipedia这样的知识库中,很多知识由页面之间的互联表示。这种互联体现了知识之间的关系,同时也构成了有向图结构。如果把实体周围的上下文也构建成有向图,就可以利用知识库的图结构实现消歧。本文将上下文中的名称和候选实体建模为图中的节点,将上下文的图结构和知识库的图结构建立联系,从而实现消歧。实验表明,这种基于上下文图的消歧方法可以达到或接近当前最好的消歧准确率。消歧系统的准确率在很大程度上取决于对实体刻画的细致度。通常用于训练实体模型的语料越多,对实体刻画得就越细致。然而,不同实体的流行程度不同,因此与之相关的训练语料的量也不同。有时候,实体之间训练语料量上的差异会大到影响系统的准确率。本文针对实体链指中语料分布不均的问题提出了一种概率模型方法,这种方法基于语言模型中的平滑技术缓解了训练数据分布不均的问题。另一方面,本文还提出在概率模型中引入别名特征。实验结果证明,平滑技术和别名特征都能有效地提高系统准确率。现有的实体链指上下文大多指的是实体周围的上下文。然而对于类似微博的短文本,这种上下文中的有效消歧特征往往不够。这直接导致了现有实体链指方法在微博文本上性能的下降。尽管单条微博内容很少,但整个微博平台上则存在大量的信息冗余。本文提出利用相似微博的跨篇章上下文帮助实体链指。我们提出了一种基于伪相关反馈的方法和一种基于图的方法。基于伪相关反馈方法利用相关微博直接扩展上下文,得到更多的特征帮助消歧。基于图的方法则克服了伪相关反馈法中引入噪声的问题。通过相似度给相似微博加以权重。具体地,基于图的方法将候选实体与微博帖子视作图中的节点,以节点之间的相似度作为边的权重。通过迭代,将候选实体节点上的标签传播给微博帖子节点。实验结果表明,基于伪相关反馈方法和基于图的方法都能有效地提高系统的准确率。其中,基于图的方法的效果相对更好。总之,本文针对实体链指中的候选生成和消歧两个部分进行研究。我们从上下文的角度对候选集合质量、上下文建模、实体建模以及上下文扩充等问题提出解决方案。实验结果证明,这些方案能有效地提高实体链指系统的准确率和效率。本文在这些问题上取得了一定的成果。我们期待这些研究成果能够进一步推动信息抽取、自动问答等其他自然语言处理任务的发展。