面向图数据的Top-k检索算法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:efan913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着社交网络、知识图谱等应用的飞速发展,图数据大量出现在学术界和工业界,如何有效管理图数据并从中挖掘有价值的信息已经成为当前数据管理领域的研究热点。其中面向图数据的Top-k检索问题广泛存在于在各类应用中,旨在从图中找出与查询最相关的k个匹配结果,是图数据管理的一个重要研究问题。针对当前图数据的数据规模大、节点和边的种类多、内容动态变化等特点,本研究重点关注面向图数据的Top-k检索中三个关键问题:分布式环境的Top-k子图检索、多数据源的Top-k子图检索和动态数据的持续相关Top-k检索,归纳总结已有工作的优点和不足,提出相应改进算法。本研究的创新点主要有:·提出基于星形查询拆分的分布式Top-k子图检索算法。算法基于星形子图拆分策略,包含对原始查询进行子查询拆分、检索子查询匹配结果、合并子查询匹配结果三个主要步骤。本研究基于算法停止条件的相关特点对算法子查询执行和合并子查询匹配结果过程进行了三方面的优化,进一步降低了算法的跨节点数据传输开销。实验结果表明:算法具有很好的可扩展性,优化后算法执行时间比已有方法平均低30%-40%。·提出面向多数据源Top-k子图检索的排序连接算法。算法包含构造来自不同数据源的匹配结果列表、连接结果列表并计算所得完整结果的分数和判断算法停止条件是否满足三个主要步骤。针对已有方法计算尚未访问结果得分上界松弛的问题,本研究提出优化的匹配结果列表排序函数和基于最小下降分数的结果列表读取策略,并从理论上证明了排序函数最优参数配置应该满足的条件,以及优化读取策略产生的结果访问顺序最优。实验结果表明:本研究提出的排序连接算法比已有工作开销低50%到70%。·提出基于动态区间窗口划分的持续相关Top-k检索算法。算法基于从时间维度对问题空间进行单位时间区间划分的思想,在每个区间执行Top-k检索,再归并计算持续相关Top-k结果。针对单位区间划分可扩展性差的问题,本研究进一步提出基于动态区间窗口划分的算法,检索过程中动态维护时间窗口,避免不必要区间划分,减少了子问题的数量,同时合并不同区间重复的计算子过程,提升了算法的空间和时间效率。实验结果表明:基于动态区间窗口划分算法在消耗更少内存的情况下,执行时间比已有方法低50%以上。
其他文献
参考国内外有关药品研发工艺验证的文献,探讨了药品研发工艺验证的基本内容,并讨论了药品设计工艺验证的必要性及其对策。
热量限制的延寿功能从酵母、线虫到哺乳动物都有明显效果,而沉默信息调节因子家族蛋白SIRT6在热量限制介导的延寿过程中发挥重要作用。核转录因子NF-κB参与到炎症、免疫应答
在水力、机械、电磁等多种复杂因素的影响下,尤其是在工况转换过程中,抽水蓄能机组的轴系振动问题非常突出。推力轴承作为承受轴向载荷的核心部件,在频繁的开停机过程中容易
通过分析U盘数据丢失的几种情况,提出对应的解决措施。提出在第一时间要重视对存储介质做完全备份来保存数据丢失"现场",再尝试各种方法来恢复丢失的数据。使普通用户在发现U
目的:分析腔隙性脑梗死患者颈动脉超声表现及其危险因素,探讨颈动脉超声检查在预防和早期诊断腔隙性脑梗死中的临床价值。材料与方法:对64例腔隙性脑梗死患者进行颈动脉超声
贾康,华夏新供给经济学研究院首席经济学家,中国财政科学研究院研究员。孙冶方经济学奖、黄达—蒙代尔经济学奖和中国软科学大奖获得者。$$本文中,贾康提出应扩大房地产税的覆盖
报纸
报童模型是供应链管理中一个经典的单周期库存管理模型,它研究了在市场需求不确定时一类短生命周期产品的订货决策问题。经典的报童模型假设零售商是风险中性的,他的目标是最
目的 探讨特应性皮炎的诊断标准。方法 采用对比研究的方法,对 Hanifin Rajka标准(金标准)、康克非标准和 Williams标准进行对比分析。结果 与"金标准"相比,在医院人群中, William
堆石混凝土(RFC)是在自密实混凝土(SCC)基础上发展出的一种大体积混凝土施工技术,已在许多工程中得到应用。自密实混凝土具有优化施工环境、提高施工速度等优良的性能。但由
车辆队列通过引入无线通信扩展了成员车的环境感知能力,在保证安全性的基础上采用几何构型更为紧凑的跟驰策略,从而可以提高交通效率,减少能源消耗,是智能交通的重要发展方向