【摘 要】
:
知识图谱近年来得到了广泛应用和扩展,其标准数据模型RDF图数据表现出的复杂性、稀疏性和多样性,造成了RDF处理引擎在存储和查询过程的复杂性,进而导致查询响应的低效性。目前大部分引擎对常见RDF数据特征进行固定模式的处理,无法体现出灵活性。因此研究自适应的RDF处理方法对知识图谱数据处理具有重要意义。本文设计并实现了自适应的RDF处理方法,从存储和SPARQL查询两个方面来提升RDF数据处理的性能。
论文部分内容阅读
知识图谱近年来得到了广泛应用和扩展,其标准数据模型RDF图数据表现出的复杂性、稀疏性和多样性,造成了RDF处理引擎在存储和查询过程的复杂性,进而导致查询响应的低效性。目前大部分引擎对常见RDF数据特征进行固定模式的处理,无法体现出灵活性。因此研究自适应的RDF处理方法对知识图谱数据处理具有重要意义。本文设计并实现了自适应的RDF处理方法,从存储和SPARQL查询两个方面来提升RDF数据处理的性能。首先,本文基于RDF数据在图上的局部聚集性定义了数据模式的概念,在数据模式和统计数据的基础上,通过启发式集合覆盖的方法将谓语划分为星模式集合。其中,基于正态分布的方法被用来选择启发式方法的初始值,并且谓语中属性与关系的分离也用来优化划分过程。其次,考虑到星模式查询在连接(Join)过程中对主语的限定,提出了基于广度优先的SPARQL查询分解和生成计划的算法,通过减少Join时输入数据的大小和生成的中间结果来提升查询性能。最后,针对SPARQL查询面临的三元组模式越来越多、构成的查询图越来越复杂的现状,本文提出了基于反向意识的查询优化,避免了树形查询计划生成过程中过剪枝的问题。为了验证上述存储和查询算法的效率,本文在分布式环境下与同类基于关系的Hadoop/Spark的引擎进行了比较。实验结果表明,在标准测试数据集Wat Div和真实数据集YAGO上,本文的存储表现出较短的耗时和极大的压缩比,查询性能相比其他引擎加速比可达75.6倍,达到了针对不同RDF数据自适应的处理目的。综上所述,本文利用RDF数据的特性设计了一种自适应的RDF处理方法。在存储方面,应用集合覆盖思想达到了良好的存储性能;在查询方面,本文基于广度优先与反向意识,对查询执行过程进行了优化,为RDF数据的高效且自适应处理提供了一个新的解决方案。
其他文献
近些年来,信息作为一种重要的战略资源在新一轮信息化革命和国际竞争中的地位和作用越来越重要。但是,随之而来的信息安全问题也日益凸显。公钥密码作为广泛应用的密码体制之一,其安全性已经成为工业界和学术界研究的重点。对已有加密算法的攻击,可以帮助我们分析算法的安全性,了解已有加密算法缺陷,采取防护措施。本文针对盲化后的密码算法提出了一种水平侧信道攻击,该方法基于聚类算法,仅用单一曲线进行密钥恢复。然而单一
显微CT(Micro-Computed Tomography,Micro-CT)以其无损检测、高分辨成像、微米级测量等优点被广泛应用于微电子、材料化学、石油地质等研究领域。在显微CT进行尺寸测量时,重建图像的质量、体素大小与数量的准确是保证有效测量结果的关键。理想的系统几何位姿是显微CT成像的基础,然而仪器设备的安装定位几何参数可能存在偏差,导致重建图像质量下降。同时,显微CT系统主要硬件位于铅制
光谱成像技术能够同时获取在体组织的结构与谱域信息,具有分辨率高、成像范围广以及信息丰富等优势,在生物医学领域应用广泛。在在体组织检测及成像中,结构紧凑、成像速度快、低成本的成像系统是扩展光谱成像技术应用的关键。本文搭建了基于窄带滤光片以及光谱重构方法的多光谱成像系统,并通过蒙特卡洛模拟、仿体实验以及在体组织实验对其可行性和有效性进行了综合研究。首先,介绍了多光谱成像技术的成像原理,选取特定的窄带滤
畜禽废水已成为农村一个主要的面源污染来源,针对这种污染现状,近年来出现了许多废水处理方法。在概括分析了畜禽废水的研究现状后,提出了人工湿地处理技术。通过对人工湿地研究现状的综述,阐述了人工湿地在净化污染物方面的研究进展。并通过对人工湿地在畜禽养殖废水处理中应用的介绍,分析了人工湿地存在的优势和问题,提出了人工湿地在畜禽养殖废水处理中具有广阔的应用前景。
在计算机视觉领域,语义分割是一项十分基本和重要的任务。随着计算机硬件性能,尤其是GPU用于数值计算技术的不断进步,深度学习得以不断发展。全卷积神经网络的出现,使得基于深度学习的语义分割方法取得快速地发展,然而基于视频数据的分割方法获得了较少的关注。视频数据相比于图片数据,多了一维时间序列信息,如何更有效地利用该信息对科研人员提出了挑战。另外,对于智能决策系统来讲,预测未来的能力对于决策来讲具有现实
多层次时间序列指的是由加和关系限制的一组时间序列。多层次预测被广泛应用在电力需求预测、旅游业数量预测以及商业税收预测等统计学、经济学领域。现有的多层次预测方法通常基于一种“两步法”策略。首先,对层次结构中所有的时间序列单独进行预测,然后,采用不同的调和预测算法使其满足加和一致性的限制条件。然而,“两步法”不仅计算复杂度高,而且无法确保所有时间序列的预测是整体最优的。为了解决上述问题,本文从多任务学
随着深度学习技术的不断发展,计算机视觉领域与自然语言处理领域相结合的相关任务研究逐渐成为计算机领域中的一个研究热点。虽然之前已经有相关的研究,如图像语义描述生成以及视觉问答任务,但是这两个任务都只能通过单次交互帮助人类对图像中的信息有基础的了解,而现实生活中对图像中内容的理解是一个循序渐进的过程,即需要通过多次交互对图像中部分内容进行理解,进而通过不断累积最后实现对图像中全部内容的理解。因此,为了
视频问答是多媒体领域和计算机视觉领域中的热门研究课题。该任务要求模型能够根据视频内容和自然语言问题生成答案。这是一个多模态任务,需要问答模型同时对视觉信息和语义信息进行认知和理解,并且融合两个模态的信息进行推断。近年来一些学者开始关注更为复杂的视频问答任务及方法。其一是视频问答中的多步推理,即问答模型能够对包含多重逻辑运算操作如数学运算和属性比较的问题进行解答。其二是将视频问答与视觉定位两个多模态
随着商品物流的增加,特别是对外贸易的加大,在物流和仓储过程中,物体由于倒置或倾斜而引起的严重损坏增多。一些敏感的物体包装上特别标有物品需向上放置的标识,一旦运输过程中发生倾斜,轻则导致经济损失,重则发生危险。如家用电器,医疗设施,化学试剂等。此外,在图书馆中,书籍也会被垂直放置以便查阅。RFID(Radio Frequency Identification,射频识别技术)的兴起和不断完善给进一步提
稀疏数据是在数据集中绝大多数数值缺失或者为零的数据,如何挖掘稀疏数据特征之间的隐含关系从而对其进行预测分析是本文的主要研究问题。目前,主流的挖掘特征间隐含关系的方法无法较全面地抽取特征间隐含关系进行更深层次的学习。通过在特征学习过程中对特征和特征之间的隐含关系进行丰富和扩充,从而提高对特征间隐含关系的学习能力。本文提出一种基于特征之间隐含关系的稀疏预测方法,结合丰富的特征信息参与特征间隐含关系的自