基于互信息的知识图谱实体关联关系建模与补全

来源 :云南大学 | 被引量 : 0次 | 上传用户:talltiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展和Web2.0的普及,数据分析、知识发现等技术面临着新的挑战,知识图谱(KG,Knowledge Graph)的出现为海量数据提供了新的组织方式。KG的补全,即是补全KG中缺失的实体以及实体间缺失的关系,是目前KG领域研究的热点之一,也是海量数据背景下信息检索与服务的重要基础。同时,用户生成数据(UGD,User-Generated Data)(用户浏览网页、商品等)的快速产生,UGD中体现出来的实体间的关联关系与KG所描述知识可能不相同,且有益补充KG。目前通过KG路径的知识推理方法来补全KG,如路径排列算法等,由于存在稀疏或者错误实体关系、且连通性差问题而导致实体间关系抽取不准确,从而得到不完整的KG。因此本文从UGD出发,通过互信息对不确定知识间关联关系的模型构建,得到具有关联关系的实体节点,进而补全KG中实体间缺失的关系,得到更为完整和真实的知识图谱,为个性化推荐和关联查询提供依据。具体而言,本文的主要工作如下:(1)UGD中包含了大量的实体和实体之间的关系,这能很好的弥补KG中缺少的实体关系,针对UGD中大量的实体节点,我们基于Spark分布式计算框架,采用互信息的方法来定量计算实体节点之间的关联度,并根据实体节点之间相互影响的大小来确定它们之间的方向,从而构建实体节点关联模型,再根据“实体-关联值-实体”三元组的形式构建实体关联图(EAG,Entity Association Graph)。(2)针对EAG,除了直接关联的实体节点,还可能存在潜在关联的实体节点,因此我们采用一种关联影响叠加的思想来计算实体节点之间的潜在关联关系,并给出了相应的计算方法。同时,GraphX提供了图的邻居节点的计算方法,方便了本文对图的计算。(3)本文采用淘宝网用户的真实行为记录作为实验数据集,实验结果验证了本文提出方法的高效性和有效性。基于本文提出的方法,设计并实现了“基于互信息的知识图谱实体关联关系建模与补全平台”的原型系统,展示了KG补全的具体过程。
其他文献
针对新概念武器鉴定定型试验前武器性能参数统计分布不能确定所带来的困难,提出了验前评定和验后评定相结合的指标评定方法.在验前评定中,不需要参数统计分布信息而直接采用
首先分析了测绘生产管理信息系统的设计内容,分别从设计目标与结构设计方法为论述对象。其次重点介绍信息管理系统应用过程中具备的功能,并将系统功能实现的具体原理做出总结
国家级新区往往采取精简行政的组织形式,事实上形成了一种模糊行政体制。模糊行政特指新区行政组织在执行权力的过程中,行政权限不明、行政职能界限不清的现象。本文立足公共
环境污染和能源危机推动了汽车代用燃料的发展,而天然气是目前理想的汽车代用和清洁燃料。本论文分析了国外、国内天然气汽车的发展状况和水平,阐述了本论文研究的主要内容;设计
化工生产流程通常在高温高压的情况下进行,具有一定的危险性,因此开发对生产流程进行监视的界面不仅可以时刻了解整个反应过程,免于危险,而且有助于控制反应条件,利于反应的
本文通过跃进区块地层、时效、施工进度、钻井工艺及参数对比分析,根据难点及施工问题提出相应技术措施,为后续井位施工提供借鉴。
民间规范与地方立法存在冲突,其存在冲突的原因主要在于我国国家法中心主义观念的阻滞,民间规范与地方立法价值取向的不同,民间规范与地方立法之间交互功能的缺失。民间规范
以江苏大学国家级实验教学示范中心为平台,按学生创新能力培养的不同阶段和认识发展规律,分层次安排特种加工技术工程实践与实验教学,开展特种加工开放型实验,实现从认知型向
<正>5月14日,"一带一路"国际合作高峰论坛拉开帷幕,中央电视台投入综合频道、中文国际频道、新闻频道及英、西、法、阿、俄语频道以及央视网、"央视新闻"新媒体等平台进行全
以汉中地区杜仲叶为原料,对杜仲叶中绿原酸的累积规律及提取工艺进行了研究,以期为工业化生产提供理论依据,研究结果如下:(1)采用高效液相色谱法对不同月份杜仲叶中绿原酸的