基于上下文的实体链指技术研究

被引量 : 0次 | 上传用户:owen_climb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链指的主要目标是识别上下文中的名称指代哪个现实世界中的实体。具体而言,实体链指是将给定文本中的一个名称字符串映射到知识库中的相应实体上去,如果知识库尚未收录相应实体,则返回空标记。近些年,美国国家标准技术研究所(NIST)举办了多次以实体链指为核心的国际评测任务。实体链指在信息抽取、问答系统、机器翻译、信息检索等多个自然语言任务中都有着广泛的应用。实体链指技术需要解决的问题主要是歧义性,即同一个名称可能对应多个实体,同一个实体也可能有多个名称。实体链指技术的主要工作旨在提高实体链指系统的准确率和效率。高准确率的实体链指结果可以为其他自然语言处理任务提供更为可信的实体映射对象。高效的实体链指系统也是互联网和大数据的直接应用需求。实体链指分为候选生成和消歧两个部分,其核心问题在于如何有效地利用上下文提高准确率和效率。上下文是候选生成和消歧的主要依据。本文基于实体的上下文展开研究。在以往的实体链指研究中,大量的工作集中在如何消歧上面。相比而言,专注于改进候选生成的工作却不多。实际上,候选生成是实体链指的必要步骤。如果生成的候选集合没有包含目标实体,那么消歧部分无法得到正确的链指结果。因此候选生成的召回率成为了消歧召回率的上限。然而如果为了保证候选集合的召回率,一味地增大候选实体数目,又会给消歧带来负担,导致消歧的效率下降。如何在保证召回率的前提下生成小的候选集合是候选生成的主要目标。本文从查询名称周围的上下文入手,搜索共指名称,以获得更高的候选集合召回率。同时,为了获得更小的候选集合,我们提出了一种相似度计算方法,对候选集合进行过滤。实验结果表明,我们提出的基于上下文的候选方法可以有效地降低候选集合的大小,同时提高召回率,从而提高了消歧的效率,减少了过多候选带来的噪声。消歧部分的主要目标是根据上下文推测哪个候选实体是查询名称所指代的对象。针对消歧问题,我们提出了两种解决办法。一种是基于上下文图的消歧方法,另一种是基于实体上下文的概率消歧方法。这两种方法分别从上下文和实体的建模方法入手解决消歧问题。传统的实体链指方法大多基于文本相似度的计算。然而这并不是人在对上下文中的实体消歧的过程中所使用的办法。人结合了背景知识对上下文进行语义层面的分析。在类似Wikipedia这样的知识库中,很多知识由页面之间的互联表示。这种互联体现了知识之间的关系,同时也构成了有向图结构。如果把实体周围的上下文也构建成有向图,就可以利用知识库的图结构实现消歧。本文将上下文中的名称和候选实体建模为图中的节点,将上下文的图结构和知识库的图结构建立联系,从而实现消歧。实验表明,这种基于上下文图的消歧方法可以达到或接近当前最好的消歧准确率。消歧系统的准确率在很大程度上取决于对实体刻画的细致度。通常用于训练实体模型的语料越多,对实体刻画得就越细致。然而,不同实体的流行程度不同,因此与之相关的训练语料的量也不同。有时候,实体之间训练语料量上的差异会大到影响系统的准确率。本文针对实体链指中语料分布不均的问题提出了一种概率模型方法,这种方法基于语言模型中的平滑技术缓解了训练数据分布不均的问题。另一方面,本文还提出在概率模型中引入别名特征。实验结果证明,平滑技术和别名特征都能有效地提高系统准确率。现有的实体链指上下文大多指的是实体周围的上下文。然而对于类似微博的短文本,这种上下文中的有效消歧特征往往不够。这直接导致了现有实体链指方法在微博文本上性能的下降。尽管单条微博内容很少,但整个微博平台上则存在大量的信息冗余。本文提出利用相似微博的跨篇章上下文帮助实体链指。我们提出了一种基于伪相关反馈的方法和一种基于图的方法。基于伪相关反馈方法利用相关微博直接扩展上下文,得到更多的特征帮助消歧。基于图的方法则克服了伪相关反馈法中引入噪声的问题。通过相似度给相似微博加以权重。具体地,基于图的方法将候选实体与微博帖子视作图中的节点,以节点之间的相似度作为边的权重。通过迭代,将候选实体节点上的标签传播给微博帖子节点。实验结果表明,基于伪相关反馈方法和基于图的方法都能有效地提高系统的准确率。其中,基于图的方法的效果相对更好。总之,本文针对实体链指中的候选生成和消歧两个部分进行研究。我们从上下文的角度对候选集合质量、上下文建模、实体建模以及上下文扩充等问题提出解决方案。实验结果证明,这些方案能有效地提高实体链指系统的准确率和效率。本文在这些问题上取得了一定的成果。我们期待这些研究成果能够进一步推动信息抽取、自动问答等其他自然语言处理任务的发展。
其他文献
在绿色环保、和谐生态的时代背景下,生态湿地景观已成为当代人现代休闲生活的重要去处。将平面构成的法则应用于生态湿地公园的景观设计,提升人与自然情感交流的生态湿地景观
在塔吊租凭行业中发现塔吊使用和安全方面存在着一些建筑单位所忽略的问题,本人负责相关技术和安全方面的工作,谈谈个人体会:
水、火、瓦斯、煤尘是煤矿主要的四大灾害。其中水患作为煤矿的主要灾害之一,对煤矿安全生产有着重大的影响。而对水仓及时有效的清理也是保证煤矿安全生产的重要因素。目前井
分析了文科研究生科研自主创新的内涵及所需基本素质。在此基础上,提出文科研究生科研自主创新能力主要可通过如下途径进行:深入而广博地阅读,拓展学术视野;注重继承,妥善处
研究背景:Small interfering RNA (siRNA)是一种长度为21-25核苷酸的小RNA分子,由Dicer(RNAase Ⅲ家族中对双链RNA具有特异性的酶)加工而成,其是siRISC的主要成员,可激发与之互补的
类沸石金属有机骨架材料(ZIFs)是一类具有多种沸石拓扑结构、结合了MOFs材料和沸石分子筛各自的优点的新型材料。ZIFs材料具有高比表面积、高孔隙率和孔体积、孔径可调、易于
本论文是基于对“2011年深圳市迎接第26届世界大学生夏季运动会行动纲领”的翻译实践所做的翻译报告,原文为17592个汉字。翻译报告包括五部分:任务介绍、翻译过程、案例分析、
由于长期工作在复杂的外层空间,卫星姿态控制系统中的执行机构和敏感器等具有复杂机构的部件,极容易出现故障,而卫星的姿态控制系统直接影响到卫星任务和使用寿命,因此对卫星姿态
菊糖(inulin)是一种具有免疫活性的中药多糖,常作为益生元类饲料添加剂使用。匹多莫德(pidotimod)是一种人工合成的免疫刺激调节剂,通过刺激非特异性免疫、体液免疫和细胞免
第一部分纤支镜对闭塞性细支气管炎疗效分析目的:研究支气管灌洗对闭塞性细支气管炎的治疗效果。方法:2011年1月-2012年10月于重庆医科大学附属儿童医院呼吸科确诊为闭塞性细支