论文部分内容阅读
在这个信息爆炸的时代,网上蕴含着海量的有价值的企业信息,但是这些信息大多分散在不同的网站,这就导致这些数据缺乏层次性和逻辑性,不同网站的数据集之间很难实现数据的自动关联,所以对信息的智能化和规范化处理显得尤为重要。本文研究的实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。根据有监督实体链接算法的三个步骤:命名实体识别、候选实体的生成和候选实体消歧,设计了一个实体链接系统,并利用该系统成功构建了一个企业领域的知识图谱。论文的具体工作可以归纳如下:(1)选择维基百科中文版、百度百科和互动百科作为背景知识库来构建多源知识库,使用基于Att-BiLSTM-CRF中文命名实体识别模型来获得实体指称,提出了一种结合上下文匹配策略和知识库信息检索策略的实体指称扩展方法,最后生成了一个具备高召回率和高准确率的候选实体集合。(2)提出了两种融合神经网络和余弦相似度的候选实体排序算法,提出了空实体判定方法。设计不同场景对比实验,结果表明,选择融合CNN和余弦相似度的候选实体排序算法,并添加空实体判定方法得到的候选实体消歧算法效果最优。(3)结合上述候选实体生成算法和候选实体排序算法作为本文的实体链接算法,设计出一个应用于企业领域的实体链接系统,并将该系统应用到构建知识图谱的过程中,使用Neo4j成功构建企业领域的知识图谱。