面向企业图谱的实体链接技术的研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:qqllql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代,网上蕴含着海量的有价值的企业信息,但是这些信息大多分散在不同的网站,这就导致这些数据缺乏层次性和逻辑性,不同网站的数据集之间很难实现数据的自动关联,所以对信息的智能化和规范化处理显得尤为重要。本文研究的实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。根据有监督实体链接算法的三个步骤:命名实体识别、候选实体的生成和候选实体消歧,设计了一个实体链接系统,并利用该系统成功构建了一个企业领域的知识图谱。论文的具体工作可以归纳如下:(1)选择维基百科中文版、百度百科和互动百科作为背景知识库来构建多源知识库,使用基于Att-BiLSTM-CRF中文命名实体识别模型来获得实体指称,提出了一种结合上下文匹配策略和知识库信息检索策略的实体指称扩展方法,最后生成了一个具备高召回率和高准确率的候选实体集合。(2)提出了两种融合神经网络和余弦相似度的候选实体排序算法,提出了空实体判定方法。设计不同场景对比实验,结果表明,选择融合CNN和余弦相似度的候选实体排序算法,并添加空实体判定方法得到的候选实体消歧算法效果最优。(3)结合上述候选实体生成算法和候选实体排序算法作为本文的实体链接算法,设计出一个应用于企业领域的实体链接系统,并将该系统应用到构建知识图谱的过程中,使用Neo4j成功构建企业领域的知识图谱。
其他文献
令(M~(2+k),T)是一个2n+k维具有对合T的光滑流形。T的不动点集为■RP_i(2n)。本文证明了:(M~(2n+k),T)协边于(■RP_i(2n)×RP_j(2n),twist)。
[目的]对乌鲁木齐市城市社区40~69岁人群开展肺癌筛查,评价筛查效果。[方法]对问卷评估的11 512名肺癌高危人群低剂量螺旋CT检查。[结果]共完成肺癌CT筛查3436人,依从性为20.
留龙金矿床中,大部分金以显微金的形式赋存于黄铁矿和毒砂中,银主要以独立矿形式存在。方铅矿是银的最主要载体矿物。不同矿化阶段的矿石中,金银含量高低与载体矿物的生成世、晶
自由基反应在生命科学中扮演重要的角色。在正常情况下,人体内自由基的产生与清除处于平衡状态,从而确保人体健康。运动时,一系列的生化反应导致机体内清除自由基的能力不足
本文用目视比色法测定碘酸铜的溶度积常数,经过对试剂浓度、用量、操作方法等反复试验,测得K_(spcu(IO_3)_2)值能稳定在1.4× 10~(-7)—1.9×10~(-7)范围,比催化动力
超导体的约瑟夫森效应在应用上前景广阔,我们利用T_c为92-96K的Y_1Ba_2Cu_3O_7-x超导体作成两种简易结,在液氮中进行了Josephson效应的观测.
本程序将一元线性回归和三次样条插值两种数据处理方式有机结合起来,自动根据标准点的分布状况确定拟合方式。对各种类型的仪器分析校准曲线均有良好的适应性。