论文部分内容阅读
随着大数据时代的到来,人们所采集的数据量已达到ZB级规模。为了精确查询数据,越来越多的搜索引擎采用知识图谱作为底层数据支撑。知识图谱是描述现实世界中地点、人物、城市、电影等事物以及事物间联系的关系网络。利用知识图谱,搜索引擎可挖掘事物之间的内在联系,更准确地查找用户所需的信息。目前知识图谱中的数据主要从Wikipedia等知识百科中自动采集,存在大量未经验证的信息,导致知识图谱呈现出噪声数据多且数据规模大的特征,这些特征使得用户难以快速获取满意的查询结果。针对以上特征,如何实现快速高效的知识图谱查询是当前学术界和工业界亟待解决的问题。现有工作通常将知识图谱查询建模成子图匹配问题,并已取得一定进展,但仍存在诸多不足。首先,现有查询模型大多要求查询结果与用户查询精确匹配,但是由于知识图谱存在噪声数据,这些模型会遗漏用户感兴趣的查询结果,存在可用性差的问题。其次,为了加快查询速度,现有查询算法普遍采用图索引技术,但是知识图谱的数据规模大,为其建立图索引需耗费高昂的时间和空间开销。最后,由于知识图谱规模庞大,所以需要采用分布式的方式实现查询过程,然而现有的分布式图数据处理平台未针对知识图谱查询的执行过程进行优化,存在执行效率低下的问题。因此,需设计新型的知识图谱查询模型、算法和计算平台以应对以上挑战。本文针对知识图谱噪声数据多、数据规模大的特征,分别从知识图谱查询模型、分布式查询算法、分布式查询执行优化三个层面对知识图谱查询问题展开研究,旨在提供快速高效的新型分布式查询技术。第一,提出一种面向知识图谱的查询模型,基于模糊匹配的思想屏蔽噪声数据,始终保证返回满意的查询结果。第二,基于本文所提的查询模型,设计一种免索引的分布式查询算法,通过新型的限界技术优化查询时间,利用分布式环境的计算能力加快查询速度,达到快速响应查询请求的目的。第三,在分布式图数据处理平台上,分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率,减少数据I/0的开销,进一步缩短查询的整体完成时间。在理论研究的基础上,设计与实现面向大规模知识图谱的搜索引擎原型系统,部署面向学术文献知识图谱的查询应用,以验证本文的理论成果的有效性。综上所述,本文针对知识图谱的两个特征,提出快速高效的分布式查询技术,保证用户可以快速获取满意的查询结果,为下一代搜索引擎提供行之有效的解决方案。随着知识图谱的不断普及,本文的研究成果将应用于商业、金融、生命科学等诸多领域,为商业决策、金融分析、生物制药等应用提供有效的数据查询支持,具有重大的社会意义。