论文部分内容阅读
工业第四次革命意味着我们即将迈入一个智能时代,人们利用一系列信息技术推动产业转型,传统工业将发生革命性的变化。然而,工业信息的智能化目前还处于研究阶段,存在一定的困难,主要是因为工业数据是异构多源的,且大多是非结构化数据。而随着知识驱动概念的兴起,知识图谱开始走入我们的日常生活,无论是使用谷歌、Bing等搜索引擎,还是使用IBM Watson、Siri和Cortana等智能助手,其实人们每天都在不断地与知识图谱进行交互。目前,知识图谱被科技巨头广泛使用,证明了利用知识图谱存储复杂的数据,并基于此做知识推理以获得隐含知识的切实可行性,知识图谱作为一种实现大规模语义集成和交互操作的新技术,引起了大众的极大关注和研究兴趣,构建方法与推理算法层出不穷。但大多数静态的知识图谱并不足以刻画动态的过程和随时间演变的知识,而面向这些静态知识图谱提出的知识图谱推理补全模型也都忽略了时间信息对推理算法的重要性。现有的知识图谱可以根据包含的领域范围划分,可以分为通用知识图谱和专业知识图谱两大类,通用知识图谱包含了现实世界实体之间的多关联信息,专业知识图谱包含了各种术语实体之间的关联关系。无论是哪一类,绝大多数都是静态的知识图谱,因此基于这些静态知识图谱所衍生出的知识推理算法大都没有考虑时间信息,在应用中,不论是利用知识图谱辅助差错检测,或是利用知识图谱对专家经验建模从而能对工业流程进行优化提供参考,所涉及的大多都是动态过程,静态知识图谱并不足以刻画这样的工业知识,忽略时间信息的重要性,会极大限制知识图谱的可用性和推理算法的准确性。基于上述考虑,本文主要研究的内容和完成的工作有知识图谱的构建和推理两方面,具体如下所述:1)电网知识图谱构建首先完成了电网新闻知识的爬取和清洗工作,在电网数据集和电网专家的经验知识上实现了基于注意力机制的实体抽取,以及利用实体抽取的结果建立自定义词典,将该词典与基于句法分析的方法结合在一起实现了关系抽取,最终结合时间信息构建完成了小型电网行业知识图谱。在知识图谱推理方面,因为大多数现有的知识图谱推理模型仅仅从时间未知的事实中学习,而忽略了知识图谱中有用的时间信息,针对这一点,本文分别考虑了关系时间感知嵌入与实体时间感知嵌入两种方式。2)关系时间感知嵌入考虑了基于关系时间感知方法和基于实体时间信息感知方法,总结了前人大量推理模型,论证了时间信息对提高推理算法能力的可行性。在关系嵌入中考虑时间信息方面,基于该策略改进了基础的Trans系列模型,通过将时间戳分解为由时态标记组成的序列,然后利用递归神经网络来学习关系类型的时间感知表示,并将学习得到的关系时间感知做为的关键项纳入评分函数,同时为了进一步提高模型的预测准确率,我们为不同的关系建立了不同的超平面,以克服头实体关系和时间信息相似情况下,不同尾实体之间的混淆情况。在ICEWS18数据集上的实验结果表明不论在哪个指标上,利用关系融合时间信息都能提高模型表现。3)实体时间感知嵌入在实体嵌入中考虑时间信息,将实体嵌入定义为一个函数,该函数接受一个实体和一个时间节点作为输入,为该实体提供一个该时间节点下的隐藏表示。基于该策略改进了Dist Mult模型,在ICEWS2014和GDELT在数据集上取得了较好的表现效果。