基于图表示学习的迭代实体对齐方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:GSo0osjo0o
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网信息高速发展的背景下,知识图谱作为一种可以高效组织数据的数据结构,在各种高智能的自然语言任务中都有广泛的应用。但单个知识图谱信息含量较少,有时难以满足任务需求,因此需要使用知识图谱融合技术将多个不同知识图谱融合,扩大信息覆盖面,进而提高其下游任务的表现。知识图谱融合的首要任务就是实体对齐,实体对齐指的是找到不同知识图谱中表面形式不同但意义相同的实体。如何判断两个表面形式不同的实体是否等价是实体对齐任务的难点,现有的大多数实体对齐方法主要是依赖知识图谱的结构信息以及部分标注好的预对齐实体,将实体表示为低维嵌入空间中的向量,通过计算向量间的相似度来判断实体是否对齐。但这些实体对齐方法只考虑了知识图谱中的关系三元组,而忽略了同样蕴含丰富信息的属性三元组,此外预对齐实体的数量与质量会直接对实体对齐表现产生影响。本文针对这两个问题展开研究,主要工作如下:1.本文提出了基于图表示学习的联合嵌入实体对齐模型(Joint Embedding Entity Alignment based Graph Convolutional Network,JEGCN)。该模型同时利用知识图谱中的关系三元组和属性三元组,首先使用多层图卷积网络模型对关系三元组中包含的结构信息进行嵌入,并使用高速网络、实体名称初始化策略和最近邻负采样策略提升结构嵌入的表示能力;其次,模型根据关系三元组中实体和关系之间的关联,计算出关系嵌入,并生成实体的结构-关系联合嵌入,对联合嵌入进行训练;再次,模型使用多层图卷积网络模型对属性三元组中的实体属性进行嵌入;最后,将实体的结构-关系联合嵌入与其属性嵌入连接,生成实体的结构-关系-属性联合嵌入。实验结果证明,JEGCN模型在DBP15K数据集上具有良好的表现,在DBP15KFR-EN数据集上的对齐准确率Hits@1达到90.26%,Hits@10得分达到96.66%。2.JEGCN属于有监督学习,对预对齐实体有较强的依赖性,故本文提出了一种基于图表示学习的迭代实体对齐方法JEGCN_iter。该方法是一种半监督学习方法,使用图卷积网络模型进行建模训练,生成新的对齐实体,将它们加入训练数据中,指导后续训练过程。为提高模型产生的对齐实体的可靠性,本文提出了设置阈值的方法和相互最近实体策略,还采用了重新初始化策略来降低迭代过程中的错误传播概率。JEGCN_iter在DBP15K数据集上的Hits@1得分平均比JEGCN模型高出10%左右,证明了该迭代对齐方法可以有效提升实体对齐效果,并降低实体对齐模型对预对齐实体的依赖性。3.在半监督学习的迭代实体对齐基础上,本文进一步提出了完全不需要预对齐实体的无监督实体对齐方法JEGCN_usv。该方法通过实体的语义嵌入距离和编辑距离联合计算实体间的距离,从而生成初步的对齐实体集合,再使用这些对齐实体开启迭代对齐的训练过程。实验结果表明,这种无监督实体对齐方法在DBP15K数据集上的表现接近有监督的JEGCN模型,甚至超过了一些有监督和半监督的实体对齐方法。
其他文献
圣维南方程组可以准确、全面地刻画渠道系统中水体的流动规律或公路上车辆交通流的运动规律,长期以来备受广大学者和工程领域专家的密切关注。本文主要研究几类简化处理后的圣维南方程组的反馈控制器设计和指数稳定性分析。第一章论述了圣维南方程的研究背景和国内外研究现状,着重介绍了简化处理后的扩散波模型和坐标变换下的一维双曲型偏微分方程组模型。第二章针对扩散波方程,设计了瞬时位置和时滞位置的线性组合(PDP)反馈
学位
目的 明确公立医院绩效考核激励作用影响因素,并分析其深层次的原因。方法 对江苏省三级公立医院医务人员进行问卷调查,对问卷结果进行描述性统计分析和有序多分类logistic回归分析,探寻绩效考核激励作用的主要影响因素。结果绩效考核方案对医务人员的激励程度较低,医务人员个人因素对激励程度的影响较小;对绩效考核方案熟悉度、绩效考核方案合理性是主要的影响因素,并且与激励程度呈正向关系。结论 医院领导应加强
期刊
计算机断层扫描(Computed tomography,CT)是一项重要的医疗诊断技术。在CT扫描时高剂量的X射线会对人体造成一定的辐射伤害,为了减少X射线对人体的伤害,低剂量CT(Low-dose CT,LDCT)被广泛地应用于临床诊断,但在降低辐射剂量的同时会在投影数据中引入量子噪声,导致重建后的CT图像质量降低。针对低剂量CT的图像噪声问题,传统的图像降噪方法因降噪过程繁复或算法本身的缺陷等
学位
从古至今结核病已有数千年的历史,一直以来威胁人类的生命健康.根据数据显示,每年新发患者人数达到了千万,死亡人数几乎近百万,由此看来结核病仍是当今世界上比较棘手的公共卫生问题.在如今信息化时代,媒体作为信息传播的重要工具,已是公众获取信息的主要来源,对防治和预防结核病的传播有着重要的影响.然而,随着社会经济的发展,科技的进步,人们出行更加方便快捷,不同地区之间的人口流动更加频繁,这无异于为结核病的传
学位
本文基于吸烟传播特点,考虑个体接触与媒介传播这两个因素的耦合作用,建立反映吸烟传播行为的动力学模型;基于检测行为的特点,考虑检测过程中环境因素与检测力度的影响,建立一个新的反映疫病检测信息的随机模型.本文通过稳定性、分支理论和随机动力学方法研究模型的动力学性态,具体内容如下:第二章将个体传播与媒介宣传这两个风险因素同时考虑,建立反映吸烟传播动态的数学模型,研究这两个因素耦合作用对动力学模型性态的影
学位
谱图理论最初专注于特定矩阵,例如邻接矩阵或拉普拉斯矩阵,矩阵的项由图确定,目的是从矩阵中获取有关图的信息。相反,图的逆谱问题是寻求确定关于实对称矩阵可能谱的信息,其非零项由给定的图描述。本文研究由给定的图描述的两类特殊矩阵的逆特征值问题,它们分别是由图是扫帚形的矩阵推广而来的似双星矩阵和连续箭形矩阵。针对第一类由图是扫帚形的矩阵推广而来的似双星矩阵,首先研究给定两类不同的特征数据,利用求解线性方程
学位
无人机航拍尽管拥有成本低、机动性高和时效性强等优势,但受飞行高度与所搭载相机焦距限制,一幅无人机航拍图像往往不能完整展示目标区域,这就需要利用图像配准技术将拥有重叠区域的多幅航拍图像拼接在一起,形成更完整的场景图像。目前研究无人机航拍图像配准大多采用传统方法或传统与深度学习相结合的方法,这不仅需要一定的先验知识而且模型泛化能力和自适应性都不强。为此,针对无人机航拍图像配准中存在大面积不可区分区域、
学位
随着工业智能化管理体系的不断发展,工业设备的稳定运行变得十分重要,对工业设备的健康监测、故障诊断以及剩余寿命预测也成了研究的热点。在设备剩余寿命预测研究领域,目前主流的方法是基于数据驱动的剩余寿命预测方法,通过对历史数据进行分析建立相应的数据模型做出预测。近年来基于数据驱动分析的剩余寿命预测方法主要分为两类,一类是基于机器学习理论的数据驱动方法,通过分析数据建立不同的网络模型对设备剩余使用寿命进行
学位
图能量是一种基于图的谱的不变量,是图谱理论及应用领域中的一个重要研究分支,可以拓展图谱理论的研究内容.自1977年,Gutman提出无向图的邻接矩阵能量后,许多学者相继提出各种能量,例如距离能量、拉普拉斯能量和广义距离能量等,通过研究各类能量的界以及刻画极值图,可以减少在化学研究中的实验环节,确定化合物的稳定性等.本文在已有的研究基础上,拓展参数范围以及简化界中的参数,获得了图的广义距离能量与链图
学位
<正> 自然科学中的基础理论,是几千年来劳动人民从事生产斗争和科学实验的经验总结,它反映了由实践到认识的过程。运用基础理论到人类的生产斗争和科学实验中去,则是从认识到实践的一个飞跃。这正是毛主席对于科学发展规律的概括。基础理论的学习方式有两种:一种是在实践过程中去学习,一种是从专门的学科去作系统的学习。在实践过程中,一个人或多或少总会学习一些基础理论的。比
期刊