面向知识图谱嵌入的负采样方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sarahfung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的快速发展,数据资源越发丰富,且数据间的关联也更加复杂多变,仅仅依靠简单文字匹配的信息服务已经难以满足用户需求,知识图谱(Knowledge Graph)应运而生。知识图谱不仅可改良信息服务,其蕴涵的丰富语义关联信息,在知识问答、辅助推理、个性化推荐等领域也表现出重要的应用价值。作为图谱表示的关键技术,知识图谱嵌入(Knowledge Graph Embedding)是将其应用于下游任务的重要前提,学术界提出各种创新模型来提升嵌入效果。但由于知识图谱实体数目庞大,目前在嵌入模型训练中广泛使用的随机负采样效率低下,且容易产生梯度消失和过拟合。为解决上述问题,本文基于生成对抗网络(Generative Adversarial Networks,GAN),充分挖掘实体关系的标签语义,开展了面向知识图谱嵌入模型的负采样方法研究。完成的主要工作如下:(1)现有的嵌入模型缺乏有效的负采样方法,这影响了模型的训练效果;同时,知识图谱中的关系包含丰富的语义信息,但现有嵌入模型对该信息挖掘不够深入。针对这些问题,本文从对关系标签建模的角度,提出一个基于GAN的知识图谱嵌入负采样算法NSGAN,对嵌入模型进行优化。NSGAN分为生成器和判别器两个部分,生成器首先对关系嵌入进行抽象聚类,得出关系标签;随后使用多头注意力机制,自适应地衡量生成的负样本在面对不同的头/尾实体时,蕴涵的关系标签的权重,最终生成假阳性关系向量,并基于该向量从知识图谱中采样出一批负样本实体,用于更新作为判别器的知识图谱嵌入模型。在NSGAN整体训练流程上,是进行初始化嵌入后,以交替更新生成器和判别器的方式进行联合训练。(2)进一步地,本文在NSGAN的基础上,将其扩展到知识图谱应用的重要领域——推荐任务中,提出了一个基于知识图谱嵌入负采样优化的推荐模型NSGAN-RS。该模型首先通过用户项目交互二部图中项目与知识图谱中实体的重叠部分构建了协同图谱,并使用NSGAN优化的Trans R模型对协同图谱进行嵌入表示;在推荐模块中,对目标用户项目采用注意力机制加权并聚合它们的邻域信息得出推荐表示,再将推荐表示和原始嵌入表示进行拼接,进行目标用户对目标项目的偏好值预测。NSGAN-RS模型同样对嵌入损失和推荐损失进行交替优化。(3)在Word Net、Freebase和Amazon-book等多个数据集上进行了详细的对比实验,结果表明,NSGAN优化后的知识图谱嵌入模型均有性能上的提升,且表现优于当前的负采样算法。在下游任务中,NSGAN-RS模型与基线算法的对比实验以及消融实验也进一步验证了NSGAN良好的泛化性能。
其他文献
页岩气开采及使用技术日益成熟,丙烷生产成本极大地下降,以丙烷为原料的丙烷脱氢制丙烯生产工艺因高产品利润率而成为投资热点。现阶段已研发出种类各异的丙烷脱氢催化剂,但在实际工业生产中贵金属Pt基催化剂的使用仍占主流。降低催化剂成本以及延缓催化剂的失活一直是Pt基丙烷脱氢催化剂改进的主要方向。本论文设计开发分别含有四、六配位、四配位和六配位形式Ga的镓铝尖晶石(Ga1Alx)、镓硅分子筛(Ga1Si32
学位
CHAMP、GRACE/GRACE-FO和GOCE等重力卫星的实施为高精度、高分辨率地球重力场模型的研制提供了海量观测数据,而不同重力场探测数据所反映重力场的波长信息有所差异,因此充分利用卫星重力和地面重力数据等数据源的不同频谱信息进行多源重力场探测数据的联合反演,并研制高精度、高分辨率的静态重力场模型具有重要意义。本文围绕多源重力场探测数据的联合反演理论与模型研制展开研究,主要包括基于GOCE卫
学位
基于可重构处理器进行深度卷积神经网络(Deep Convolutional Nerual Network,DCNN)算法加速已经是一种广泛的技术,其中稀疏神经网络加速是研究的热点。然而,绝大多数声称拥有高算力的计算设备并不能在高效率,低延迟以及低功耗下运行神经网络算法,因此在对多样的计算场景下,神经网络加速器在效率、延迟、和功耗方面依然有很大探索空间。本文研究了稀疏神经网络硬件加速中的三项关键技术
学位
随着计算机技术与人工智能的发展,利用数字化智能化手段实现视频人体行为分析已成为重要的研究课题。人体行为分析领域中存在不同模态的数据输入,包括RGB图像、人体骨骼数据等。基于RGB图像的相关研究已广泛应用于智能视频监控,而基于人体骨骼数据的研究则广泛应用于人机交互、舞蹈文化保护等需要识别动作细粒度属性的应用。在此背景下,本文针对视频图像、人体骨骼数据展开对视频人体行为分析关键任务的研究与应用。由于视
学位
碳量子点(CQDs)作为一种新型的碳纳米材料,因其具有优异的荧光特性、高生物相容性、良好的水溶性等特点,被广泛应用于生物、环境等领域。在CQDs的生产和使用过程中,进入环境的数量必然增加。土壤是地球化学元素循环的重要组成部分,也是纳米材料的归宿,纳米材料的释放可影响土壤酶活性及微生物群落结构。微生物介导的异化铁还原将Fe(Ⅲ)还原成Fe(Ⅱ),并从这一过程储存生命所需能量,该过程对土壤的元素循环、
学位
期刊
抗生素耐药性一直是世界范围内的重大公共卫生问题,需要尽快寻找新的抗菌策略,帮助解决细菌耐药性危机。抗毒力信号策略通过特异性地干扰细菌的信息传导系统,降低细菌的致病性,这种策略不会直接杀死细菌,对于细菌耐药性施加的选择压力较小,不易导致产生新的耐药菌。群体感应(QS)是细菌之间的信号转导机制,它依赖于细菌的密度,通过信号分子来控制细菌的群体行为。其中喹诺酮(pqs)系统通过Lys-R型转录调节因子P
学位
近年来,由于光能具有绿色清洁、高度可调、安全性高等优异特性,光化学在能源转型和能源革命如火如荼的时代背景下,已经引起了众多学术界内与工业界内科研工作者们的广泛关注。而有机三重态光敏剂相关研究,作为现代分子有机光化学学科的一个重要发展方向,已在材料科学,生命科学,合成科学,环境科学,能源科学,通信科学等各个前沿领域取得不少的进展与成果。其中,尤其是氟硼吡咯(BODIPY),因其强可见光吸收能力与易于
学位
为了解不同苗龄江南油杉造林的早期生长情况,对广西黄冕林场不同苗龄江南油杉的试验示范林进行调查,并对1~2年生幼树树高生长开展试验分析。结果表明:试验林造林成活率均在88.89%以上,不同样地差异不大,不同苗龄的成活率随着苗龄增大而提高。不同样地江南油杉树高H1、H2仅3年生苗存在着显著差异,但不同苗龄间H1、H2差异显著。样地与苗龄的因子效应分析表明,苗龄为树高生长的主要因子且在H1、H2上存在着
期刊
【目的】探究不同移栽苗龄对基质栽培黄瓜生长生理以及产量的影响,以期筛选出基质栽培条件下黄瓜幼苗适宜的移栽苗龄。【方法】以新春四号黄瓜为试材,共设T1(四叶一心)、T2(三叶一心)、T3(二叶一心)和T4(一叶一心)4个苗龄处理,研究移栽不同苗龄黄瓜幼苗对植株株高、茎粗、根系活力、叶绿素含量、光合参数、荧光参数以及产量等指标的影响。【结果】T3处理黄瓜植株株高显著高于其他3个处理。T3处理根体积最大
期刊