面向知识图谱嵌入的自适应筛选算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:shiguanglai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,知识图谱的构建和应用迅速增长。知识图谱是指其节点是现实世界中的实体并且边是实体之间的关系的网络,表示为三元组形式(头实体,关系,尾实体)。这样由三元组形式的大量事实组成的网络建立了人类知识的结构系统。人们已经创建了大量的知识图谱,例如YAGO,NELL和Freebase。并且人们成功将其应用于很多领域,从语义解析和命名实体消歧到信息提取和问答。虽然这种结构能有效地表示结构化数据,但它却很难表述三元组的潜在属性。因此,人们提出了一种新的研究方向,称为知识图谱嵌入。其关键思想是将知识图谱的组件(包括实体和关系)嵌入到连续的向量空间中,以便在保留知识图谱的固有结构的同时简化操作。这些实体和关系嵌入可以进一步用于完成各种任务,例如知识图谱补全、关系提取、实体分类和实体解析。这些模型尝试使用不同的方法对三元组进行评分,目标是区分正例和反例。训练数据采样对于嵌入模型的更快和更好的收敛非常重要。目前,反例抽样引起了很多关注。为了减少训练中无效的反例样本,基于翻译的模型设置了替换头部或尾部实体的不同概率。研究了每个正例训练样本产生的反例数量的影响。在重组的三元组生成中也考虑实体的类型信息。此外,提出基于GAN的反例抽样来处理零损失问题。但是,现在仍没有有效的正例采样方法被提出。而正例采样对于进一步研究各种嵌入模型也是必不可少的。因此,为了高效地找出那些有可能没有训练好的数据点,本文引入了自适应分组筛选的方法。自适应的筛选训练数据方法对训练数据按照一定的规则进行分组。首先按照某一规则进行分组,然后在组中随机挑选数据,这样能够平衡筛选时间代价与训练数据质量的问题。另外,本文采用关系作为分组依据,能够简单有效地划分数据。同时,为适应训练过程中未充分训练数据的动态变化,本文提出自适应调整每组被选择的概率,能够使训练过程自动地向更有利于收敛的方向进行,从而提高了训练模型的效率。此外,精确评估每组数据的训练程度是困难的。本文使用每组数据上一轮的平均损失作为该组数据训练程度的近似估计。并且,为避免反例的随机性带来的“零损失”问题导致的训练程度评估偏差,本文加入了“损失非零”机制。实验结果表明:自适应的分组筛选在链接预测任务上取得了更好的结果,能使嵌入模型更快更好地收敛。
其他文献
砂卵石层是北京地铁施工主要地层之一,其密实度高、饱和抗压强度大,盾构隧道施工过程中刀盘磨损快与单次掘进距离要求长的矛盾突出,是当前急需解决的关键难题之一。当前,刀盘
随着当代信息技术的发展和进步,信息化社会的不断发展使得我们对数据处理的能力要求越来越高,传统的数据处理方法已经不能满足需求,因此如何利用机器来进行信息处理和大数据
随着手机等移动智能设备的普及,运行在这些设备上的App软件也得到了快速发展。随之产生的App应用商店,在为用户下载App提供便利的同时,也带来激烈的产品竞争。一款App想要在应用商店中立足,了解同类产品所具有的功能以及功能的细节特点是十分重要的。然而,应用市场中包含大量的App产品,在产品经理设计一款App功能时,很难全面了解所有同类产品。针对这一问题,本文提出了基于深层次特征的竞争分析(DFCA
由于能源危机和环境问题,新能源的开发迫在眉睫。太阳能作为取之不尽、用之不竭的新能源,具有巨大的发展潜力。因此,大力发展太阳能电池势在必行。钙钛矿电池作为第三代太阳
圆极化天线由于在抗干扰性、可以同时作为收发天线等方面的优点而被广泛应用。通信系统频段作为一种资源,面临着日渐紧缺的困境,如何在有限的频谱资源下尽可能提升通信容量是专家学者正在探究的方向,本课题致力于研究在多个频段产生圆极化辐射特性,保证各自频段独立工作且具有较小的高低频中心频率比,具有重要的研究意义和工程价值。本课题旨在探讨多频左右旋的圆极化天线以及降低频率比的方法。本文的研究内容包括:第一,论文
基于中国制造2025与工业4.0的背景下,机器人在航空航天、海洋装备制造等领域中得到广泛的应用。目前,现有的通用型装配机器人大多以串联关节型工业机器人为本体,该类型机器人仅适用于轻小型工件的对接和装配,由于外界环境对机器人末端施加力和力矩,致使其在对接与装配过程中运动不平稳、精度不高。本文针对此问题,结合吉林省科技发展计划项目“具有自主定位导航的大工件柔顺装配对接机器人”,搭建以并联六自由度机器人
党的十八大以来,我国经济社会发展、尤其是地方农村发展在各方面各领域都取得了优异的成绩。十九大报告中指出“实施乡村振兴战略,农业农村农民问题是关系国计民生的根本性问题,必须始终把解决好“三农”问题作为全党工作重中之重。”[1]实施乡村振兴战略。借着乡村振兴的东风,B市通过组建具有投融资性质的皎月公司,结合地方优势资源和政策红利,发挥资源资产的金融杠杆撬动作用,试图破解制约区域经济发展的资金瓶颈和产业
近年来,限域离子液体在催化反应和气体捕捉中的应用备受关注,其优异的特性展现出良好的应用前景。但是关于限域离子液体的模拟工作很少,并且大都集中在分子动力学性质方面,很
在最近二十年间,世界进入互联网时代,人们的线上社交活动与线下生活文化完全交织在一起,人们接受信息的方式也从被动转换为主动,每个人都成为了信息的挖掘者与传播者,各种社交媒体应运而生。微博作为国内主流网络社交媒体聚积了数亿用户,在上面用户可以对网络上新发布的政策、工业产品、时事热点等发表自己的观点立场,如何在特定目标话题下有效的对用户立场进行判断成为网络舆情分析的重要课题。微博文本具有网络化、噪音多样
目的:卫生系统反应性是指卫生系统对个体改善非健康方面普遍合理期望的认知和适当反应。本研究通过了解广州市属三级医院卫生系统反应性的现状,分析当前广州市居民对市属三级医院卫生系统反应性评价中存在的问题并探讨其影响因素,为进一步完善和提高医疗机构特别是三级公立医院的卫生系统反应性提供科学依据。对象:本研究采用判断抽样的方法,首先从广州市属15家三级医院中抽取5家医院(3家综合医院、1家专科医院、1家中医