论文部分内容阅读
在互联网技术的深度普及的时代,海量的数据时刻冲刷着用户浏览信息的眼球。如何从无序且规模庞大的多源数据中抓取精确、有用的知识,是当前互联网技术的主要研究方向。随着人工智能技术的发展,知识图谱应运而生。知识图谱能够把碎片化的实体通过关系联结起来,构建起一个结构化的语义知识库,从而使得现实世界中存在的知识更易于理解、查询、管理和应用。当前,知识图谱已经迅速在学术界和工业界普及,并在生物医学、金融风控、公共安全、灾害防治等领域取得了广泛的应用,并且各类通用百科类知识图谱、常识类知识图谱和垂直领域的知识图谱层出不穷,知识图谱技术也随着研究人员的持续深入探索不断完善。知识图谱技术的发展目前仍然存在问题与挑战。一方面,虽然现有的知识图谱中已经包含了大量的事实性知识,但是当前的知识图谱多数采用来源于结构化或半结构化的数据,忽略了非结构化数据中隐藏的大量有效知识,从而导致整个知识图谱仍然是非常稀疏,同时现有的通用知识图谱难以直接应用到特定领域的垂直行业当中。如何从形式各异的数据中抽取新的知识补全知识图谱亦或是重新搭建一个针对特定领域的行业知识图谱是当前需要解决的问题;另一方面,随着知识图谱的规模不断膨胀,传统知识图谱离散符号化的表示方法使得知识图谱检索效率低下且无法表达实体间的语义关联,也难以广泛应用于下游任务中。针对知识图谱数据稀疏的问题,主要涉及到知识图谱补全技术,而知识抽取技术和实体链接技术又是其中的主要研究内容,并且其结果将决定着知识图谱补全的最终质量;针对知识图谱表示问题,当前主流的解决方法为采用知识图谱嵌入式表示方法把知识图谱中的实体和关系编码成具体的向量数据,从而嵌入到稠密低维的向量空间中,连续性的嵌入式表示方式还可以有效的解决知识图谱的稀疏性问题。同时,稠密的低维向量表示方式更有利于大多数以特征向量形式作为输入的主流下游任务算法。因此本文的主要研究内容包括了如下几个方面:(1)本文设计一种基于BERT-wwm-ext的中文知识抽取方法。该方法独立地学习用于知识抽取和关系抽取的两个编码器。对于实体模型,引入跨度等级的概念,提取所有可能为实体的跨度,并通过激活函数判断每一个跨度的实体类型。对于关系模型,引入实体边界和实体类型概念并将其作为标识符加入到实体跨度前后,并输入到关系模型中,然后对所有的实体对进行关系分类。(2)本文设计一种基于多维特征融合的中文实体链接方法。针对实体链接的候选实体生成问题,该方法分别采用了四种方法生成候选实体,并验证了候选实体选取方法的有效性。针对实体链接的候选实体排序问题,本文把该问题当成为一个分类问题,并引入了中文预训练模型构建分类模型计算候选实体和实体指称项的相似度得分。(3)为了验证知识抽取和实体链接模型的可行型,同时为知识图谱表示技术研究提供有效图数据,本文针对维基中文百科提供的有效数据,凭借知识抽取和实体链接模型从非结构化的文本数据中获取结构化的知识,并应用知识存储技术搭建一个小型百科知识图谱。(4)在百科知识图谱构建的基础上,应对离散符号化的知识图谱表示方法存在的数据稀疏等问题,设计了一种语义信息与图神经网络知识图谱表示方法,该方法有效融合了知识图谱中实体、关系和三元组的语义信息,通过多次的迭代将三种不同的语义信息进行融合编码,并将其映射到实体上,实现知识图谱的嵌入表示。