基于文本信息增强的知识图谱联合表示学习模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cxr1682000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱的概念由知识库衍生而来,数据实体间通过相互关系链接在一起。知识图谱技术旨在存储开放世界中实体及实体之间的复杂关联信息,能够改善现有知识库的数据查询准确度及搜索效率,在知识自动问答、推荐系统等领域有着广泛的应用价值。现有的知识图谱通常是不完善的,且数据关联稀疏,导致其在自动问答、智能推荐等应用系统上的表现非常糟糕。基于文本增强的知识图谱表示学习技术,充分利用文本数据丰富的语义信息,并将与知识库关联的文本信息进行融合,能够提高实体关系向量的语义解释性,并对知识图谱稀疏结构数据进行补全,提高知识图谱技术在智能系统中计算推理的准确度。
  为了能够利用知识图谱外部丰富的文本数据信息,对表示学习得到的知识图谱中实体关系结构向量进行语义增强,建立知识联合表示学习模型。利用翻译训练算法的思想学习得到知识图谱内部三元组结构的表示向量,针对知识图谱相关概念的文本描述信息,设计卷积神经网络来抽取句子中的可靠特征信息,采用合理的卷积核参数处理输出向量,将文本表示向量映射到与结构向量一致的嵌入空间。基于注意力机制对不同关系的特征可信度进行区分,根据每个文本与关系的相关程度分配权重参数,通过向量内积的计算方式进行语义组合,从而可以有效地获取知识图谱中关系关联文本嵌入向量。联合模型利用相关文本的表示向量对现有知识库中的实体关系结构向量进行增强表示学习,使知识表示模型的翻译向量更具语义解释性,并可以很好地运用知识图谱外部模态信息对现有知识库的稀疏领域知识进行计算补全。同时,模型借助二维卷积运算对实体和关系的联合表示向量进行处理,提取向量本身具有的非线性特征,增强隐式向量间交互能力的同时,拥有高效的参数利用效率,在一定程度上缓解了复杂关系数据建模的高复杂度问题。
  为验证计算模型的有效性,分别在FB15k、WN18和YAGO3-10数据集上与通用模型TransE进行对比实验,在实体预测任务上预测准确度总体提升6%-20%,在三元组分类任务上准确度总体提升4%-12%,充分阐明了联合表示模型的有效性和可扩展性。
其他文献
随着无线网络的广泛部署和智能移动终端的普及,移动流量日益激增,其中无线视频流量已经占据了主要部分。海量的视频内容以及新兴的服务业务为无线视频传输设计带来了巨大的挑战,包括视频传输效率以及传输质量的信道适应性。在传输效率方面,需要考虑在有限无线资源情况下,如何最小化大容量且高相关性视频的传输失真。在信道适应性方面,需要考虑在时变衰落的无线信道以及异构的多播信道场景下,如何使得视频恢复质量随着信道条件
动态有向图中具有更新依赖关系,即有向边的目的图顶点的状态值依赖于源图顶点的状态值。当沿着动态有向图中更新依赖关系传递的方向依次异步串行地处理图顶点时,图顶点状态值能够在动态有向图中快速传递。然而,现有软件图处理系统和硬件图加速器无法实时感知和利用更新依赖关系的这种特性,因此,现有方法在处理动态有向图增量计算时无法同时实现快速迭代收敛和低预处理开销。  针对现有软件和硬件方法在处理动态有向图增量计算
随着网络功能虚拟化和边缘计算的演变和发展,网络功能被部署在靠近用户的边缘服务器上来减少用户和云之间的数据交换和端到端的延迟。由于边缘服务器集群的资源有限,现有许多研究致力于开发轻量级的基于容器的网络功能虚拟化平台。然而,在基于容器的网络功能虚拟化平台中,多个容器共用同一个核来节省资源。这样会引起虚拟网络功能之间相互竞争资源,从而导致虚拟网络功能所服务的流的性能需求无法得到保证。  基于容器的网络功
学位
核值是一种反映图的聚合度的重要指标,也是图数据分析中紧密子图挖掘的一个热点,它适用于对网络拓扑结构的分析以及社区的查找,还可以用来遏制谣言的传播。静态图上的核值计算以及动态图上的核值更新分别称作核值分解和核值维护问题,这一类问题已经得到了广泛的研究。然而,绝大多数的这些研究都只关注于无权图,但是在现实场景下,大部分的图都是有权的,每个个体在网络中都自带一定权重。然而,目前还没有较为高效的算法能解决
学位
近年来,网络空间安全事件频发,对社会造成了难以估计的影响。在这样的背景下,针对软件系统的漏洞检测研究愈发重要。深度学习因其强大的建模能力和智能化学习能力受到了广泛关注,研究人员纷纷应用深度学习技术进行源代码的表征学习以生成漏洞检测模型。然而,当前漏洞检测领域极度缺乏用于训练模型的真实软件漏洞数据集,目前有效的数据大都用人工的方式生成,效率低且成本高。此外,现有基于深度学习的漏洞检测方法大多是使用线
自2008年比特币问世以来,区块链作为比特币等加密货币的底层技术引起了金融界和学术界等多个领域的广泛关注。区块链本质上是一个提供了一个开放的分布式一致性算法的分布式数据库系统。尽管区块链技术是一种完全去中心化且设计安全的协议,它仍存在可扩展性的瓶颈:低交易吞吐率和高确认延迟,这些因素很大地限制了区块链的实际应用。因此设计一种可扩展的分布式一致性算法非常具有现实意义。  分片技术是提高区块链可扩展性
学位
随着深度学习(Deep Learning, DL)的快速发展,为了帮助从业者快速编写和训练模型,出现了大量的深度学习框架。这些框架按照编程范式可以分为两类:声明式编程框架和命令式编程框架。TensorFlow和PyTorch分别是这两类中最受欢迎的框架,分别使用静态和动态计算图来表示计算过程,前者能在运行之前对计算图进行优化,而后者能更好地处理变长输入。由于两者使用了不同的计算图理念,其在框架设计
学位
随着互联网和移动互联网的发展,社交网络凭借其信息传播速度快传播范围广的特点迅速成为人们网络社交的重要平台,对社交数据中话题的趋势进行研究和分析具有重要意义。本文构造爬虫系统从微博平台上爬取大量社交数据并对其进行初步分析。提出改进的文本表示模型并运用融合了NMF和时间窗类簇合并的层次聚类算法进行文本聚类形成话题。最后分析影响话题趋势的特征并对趋势预测模型进行对比研究和改进。  首先,构建了一个爬虫系
学位
步态是一种用于识别人的重要生物特征,因其具有能远距离捕获特征且无需配合的优势,在视频监控领域吸引了越来越多的关注。与基于步态轮廓图的方法相比,利用人体骨骼数据可以有效缓解协变量变化对步态识别性能的影响。然而现有的基于行人骨骼的方法往往将骨骼数据建模为矢量序列或伪图像,然后送至CNN或RNN进行处理,由于缺乏对关节点信息的有效利用,识别效果不够好。  考虑到人体骨骼拓扑图具有良好的稳定性和不变性,本
学位
容器是一种轻量级的虚拟化技术。由于其部署便捷和启动快速等特点,容器在云平台中的应用场景近年来不断增加。容器需要专门的存储驱动(如Aufs、Overlay等)对镜像进行层次化的管理。然而,存储驱动的引入也增加了I/O路径的复杂性,使得多容器场景下的I/O扩展性受限。  为了研究容器文件系统的扩展性问题,设计了有关Overlay文件操作扩展性的性能评估。根据评估结果,当执行文件操作时,Overlay比
学位