论文部分内容阅读
随着互联网近年的快速发展,文本信息数量激增,而且文本信息的表现形式越来越具有多样性。网络文本中存在大量的简写、缩写、不规范和昵称的表达导致的实体多样性问题以及自然语言自身的歧义性导致的实体歧义问题,影响了人们对信息的分析和理解。实体歧义性是指同一个字符串在不同的上下文中可以表示不同的实体,实体多样性是指多个不同的字符串可以表示同一个实体。通过解决实体的歧义性和多样性问题可以帮助人们更好的理解文本信息。实体识别与链接是根据上下文信息将文本中人名等实体指称链接到知识库中对应实体的过程,主要解决了实体的多样性问题和实体的歧义问题,对搜索引擎、信息理解和问答系统具有重要意义。实体识别与链接任务是识别文本中的实体指称并将其链接到知识库中相对应实体的过程,实体指称是指文本中具有特定意义的字符串,如人名、机构名等。目前的实体链接方法主要有单一式的实体链接方法和协同式的实体链接方法。单一式的实体链接方法每次对文本中的单个实体指称进行链接,注重实体指称的上下文和知识库中实体的描述文本信息,忽略了文本中实体指称间的关系。协同式的实体链接方法对文本中的全部实体指称一起进行链接,注重实体指称间的相互关系和知识库中实体间的相互联系,但忽略了实体指称的上下文和知识库中实体的描述文本信息。针对上述方法的不足,本文提出了一种融合卷积神经网络和重启随机游走的实体链接方法,并基于该方法实现了一个实体识别与链接系统。该方法首先对文本中的实体指称进行识别,然后生成实体指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的实体指称进行聚类。本文方法在KBP2016的实体识别与链接评测任务的英文数据集上的FCEAFm值为0.669,低于2016年英文参赛队伍的第一名0.015,高于2016年英文参赛队伍第二名0.019。在KBP2016的实体识别与链接评测任务中中文、英文以及西班牙文三种语言的评测数据集上验证了本文方法的通用性,三种语言实验结果的FCEAFm值为0.652,KBP2016三种语言评测第一名的FCEAFm值为0.643。实验结果表明,本文提出的融合卷积神经网络和重启随机游走的实体识别和链接方法能够有效地进行实体链接。本文的主要贡献如下:1、提出了一种融合卷积神经网络和重启随机游走的实体链接方法,该方法通过使用卷积神经网络获取实体指称和实体的局部重点信息结合重启随机游走算法获取实体指称和实体的全局信息进行实体链接,最终得到实体链接的结果更加准确。2、针对实体链接任务,本文使用重启随机游走获取实体指称和实体的语义特征,即获取实体指称和实体的全局信息。3、针对实体链接任务,本文使用卷积神经网络获取指称的上下文以及实体在知识库中的描述文本的文本特征,即获取实体指称和实体的局部重点信息。4、构建知识库分析索引。传统的实体检索方法采用的是字符串匹配的方式,检索效率较低。因此本文通过对知识库进行解析并使用Elasticsearch全文搜索引擎构建了知识库分析索引,并在此基础上设计了更加合理的实体检索策略。