论文部分内容阅读
在大数据时代,不仅需要获取越来越多的数据,更需要从数据中挖掘有用的知识。基于大规模知识网络的关系推断是利用知识网络挖掘出实体之间的隐含关系,为信息检索、关系推荐、智能问答等网络应用提供支持。根据实体关系是否随时间变化,可将关系推断分为静态关系推断和动态关系推断。动态关系推断可进一步分为非时序动态关系推断和时序动态关系推断,前者仅推断出关系是否存在,后者在推断关系是否产生的同时识别出关系的产生时间,得到关系产生的时序。传统的实体关系推断技术难点可归结于复杂多元异构信息(如属性信息、结构信息、时间信息等)的关联表示和综合利用,而现有的知识网络模型难以有效地解决这些问题。为此,本文研究新的知识网络模型,在此基础之上研究实体关系推断技术。论文的主要研究成果如下:(1)研究了知识网络模型,针对传统的知识网络模型无法充分描述复杂多元异构信息的问题,提出一种开放知识网络八元组模型,构建了开放知识网络(OpenKN)。开放知识网络是一个异构网络,网络中的点和边都带有时间、空间、属性等信息,并赋予一系列函数或算子。与传统的知识网络相比,开放知识网络具有开放、自适应、可演化、可计算的优势,能够有效描述复杂多元异构信息,便于信息的深度挖掘。(2)研究了静态关系推断,针对传统方法仅利用网络中单一的结构信息导致无法充分刻画关系特征的问题,提出一种基于开放知识网络的静态关系推断方法。该方法利用开放知识网络中丰富的属性信息,通过决策树方法对属性进行选择;然后,利用随机游走的思想,计算关系路径特征值;最后,融合属性和结构两方面的信息共同实现关系推断。实验表明,与传统的静态关系推断方法相比,新方法提高了推断准确率。(3)研究了非时序动态关系推断,针对现有的有监督推断方法复杂度高、不适用于大数据环境的问题,提出一种基于开放知识网络的非时序关系推断方法。该方法充分利用开放知识网络中的时间信息,将时间信息融入到混合背包模型中;然后,通过混合背包模型的求解,选出有意义的链接延展模式;最后,通过模式匹配得到推断结果。实验结果表明,与当前主流的非时序动态关系推断方法相比,新方法取得了更高的准确率,且该方法是一种无监督学习的方法,计算复杂度较低,对于大数据的环境有较好适应性。(4)研究了时序动态关系推断,针对主流方法无法充分刻画时间与结构内在关联的问题,提出了一种基于开放知识网络的时序动态关系推断方法。该方法利用开放知识网络中丰富的多元异构信息,将时间信息融入到网络结构特征中;然后,利用逻辑回归训练推断模型,实现推断关系是否产生的同时,推断关系的产生时间。实验结果表明,新方法不仅在推断关系是否产生方面取得了良好的效果,在推断关系产生时间方面也优于当前主流的方法。(5)结合关键技术成果和实际用户需求,开发了基于开放知识网络的关系推断系统。该系统主要由三个模块组成:开放知识网络底层存储模块、离线模型训练与模式选择模块、在线关系推断模块,实现实体关系推断,并在多家单位投入使用。