面向大规模知识图谱的分布式查询技术研究

来源 :东南大学 | 被引量 : 9次 | 上传用户:hexin123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们所采集的数据量已达到ZB级规模。为了精确查询数据,越来越多的搜索引擎采用知识图谱作为底层数据支撑。知识图谱是描述现实世界中地点、人物、城市、电影等事物以及事物间联系的关系网络。利用知识图谱,搜索引擎可挖掘事物之间的内在联系,更准确地查找用户所需的信息。目前知识图谱中的数据主要从Wikipedia等知识百科中自动采集,存在大量未经验证的信息,导致知识图谱呈现出噪声数据多且数据规模大的特征,这些特征使得用户难以快速获取满意的查询结果。针对以上特征,如何实现快速高效的知识图谱查询是当前学术界和工业界亟待解决的问题。现有工作通常将知识图谱查询建模成子图匹配问题,并已取得一定进展,但仍存在诸多不足。首先,现有查询模型大多要求查询结果与用户查询精确匹配,但是由于知识图谱存在噪声数据,这些模型会遗漏用户感兴趣的查询结果,存在可用性差的问题。其次,为了加快查询速度,现有查询算法普遍采用图索引技术,但是知识图谱的数据规模大,为其建立图索引需耗费高昂的时间和空间开销。最后,由于知识图谱规模庞大,所以需要采用分布式的方式实现查询过程,然而现有的分布式图数据处理平台未针对知识图谱查询的执行过程进行优化,存在执行效率低下的问题。因此,需设计新型的知识图谱查询模型、算法和计算平台以应对以上挑战。本文针对知识图谱噪声数据多、数据规模大的特征,分别从知识图谱查询模型、分布式查询算法、分布式查询执行优化三个层面对知识图谱查询问题展开研究,旨在提供快速高效的新型分布式查询技术。第一,提出一种面向知识图谱的查询模型,基于模糊匹配的思想屏蔽噪声数据,始终保证返回满意的查询结果。第二,基于本文所提的查询模型,设计一种免索引的分布式查询算法,通过新型的限界技术优化查询时间,利用分布式环境的计算能力加快查询速度,达到快速响应查询请求的目的。第三,在分布式图数据处理平台上,分别从作业调度和数据存储两个方面优化分布式知识图谱查询的执行效率,减少数据I/0的开销,进一步缩短查询的整体完成时间。在理论研究的基础上,设计与实现面向大规模知识图谱的搜索引擎原型系统,部署面向学术文献知识图谱的查询应用,以验证本文的理论成果的有效性。综上所述,本文针对知识图谱的两个特征,提出快速高效的分布式查询技术,保证用户可以快速获取满意的查询结果,为下一代搜索引擎提供行之有效的解决方案。随着知识图谱的不断普及,本文的研究成果将应用于商业、金融、生命科学等诸多领域,为商业决策、金融分析、生物制药等应用提供有效的数据查询支持,具有重大的社会意义。
其他文献
青藏东缘昌都-思茅带构造环境的研究对其所蕴含的找矿潜力具有重要意义,中三叠世末,三江联合地体形成,昌都-思茅构造带进入陆内演化阶段。通过对昌都-思茅构造带晚三叠世火山
计算机视觉和图像处理领域普遍存在数据维度高,图像数据类型日益复杂的情形,经典的计算和分析方法对这类图像数据进行分析处理时往往计算代价过高,甚至会完全失效。通常在对
随着人们对于图像视频的立体感、真实感等感观体验要求的不断提升,自由视点视频技术应运而生。自由视点视频技术允许用户在一定的范围内选任意择视角观看视频,具有良好的立体
本文对该项目使用的洁净室空调系统和动力系统,在施工中、生产运行时产生的问题进行分析、讨论及处理和改进。出现这些问题的主要原因为原设计人员套用经典净化空调系统和动
<正>按照政府工作安排,从2016年5月1日起,将"营改增"试点范围扩大到建筑业、房地产业、金融业和生活服务业,并将所有企业新增不动产所含增值税纳入可抵扣范围,确保所有行业税
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
对于朱子哲学中的天理概念,既往的研究已经做了非常深入、全面的考察。但天理概念的哲学内涵,仍有晦暗不明之处。本文从"所以"、"当然"和"必然"等概念入手,通过细致的文本解
视频中人体动作识别作为计算机视觉与模式识别领域中的一个重要分支,在智能视频监控、人机交互、运动分析、视频检索等诸多领域,具有广阔的应用前景,受到了国内外学者广泛关
通过对兰坪盆地内三种主要成因类型(沉积-热液改造型、热水沉积-热液改造型和热液脉型)的铜银多金属矿床硫、碳、氢、氧同位素的研究,揭示了成矿作用过程的某些重要信息:矿石中的
活动轮廓图像分割方法于1987年由M.Kass等人最先提出,在过去几十年中逐渐成为图像处理领域特别是图像分割领域的研究热点。随着研究的不断深入,大量的活动轮廓模型先后被提出