大规模图中可扩展的可达性查询高效处理方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yilishabai123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着复杂多元社交信息网络的广泛应用,关联数据对于人们周围的现实世界和社交网络而言具有越来越重要的地位。如Facebook拥有十亿多的用户。图,作为一种通用化的数据结构,对于表达复杂的结构化和半结构化数据,例如wikipedia,twitter,free-base等社交网络数据,具有重要意义。其中一个重要应用是,如何在一个给定的大规模图中高效地查询两个给定结点之间是否存在路径,即可达性查询处理。然而随着图数据的持续爆炸式增长,传统方法由于存储和时间局限性,很大程度上限制了它们在大规模图数据中的应用。因此,如何保证在拥有紧凑存储结构的前提下,以更高效的时间解决大规模图数据可达性问题,依然具有极大挑战性。基于遍历树图划分和连续重编码的索引策略Interval-Index,提出了一种拥有紧凑存储结构且能保证高效查询效率的大规模图索引。Interval-Index索引技术通过图划分提高了图处理的局部性和并行性,并在划分基础上对大规模图数据的存储结构进行设计,确保索引结构具有较高压缩比。为了提高数据访问的顺序性,方便建立高效索引,Interval-Index对每一个遍历树分区进行连续重编码。同时重编码策略使得后续基于变长字节的邻接表压缩具有更高的压缩效率。利用基于遍历树生成图的索引结构,可以通过二分查找实现对结点快速定位,提高了查询处理速率。此外,Interval-Index采用mmap虚拟内存技术实现对数据的按需调入,提高了内存利用率和数据载入效率。通过对多种真实图和合成图在可达性查询处理上的存储性能和速度性能方面的测试。Interval-Index方法在存储空间上比Feline至少降低了23%,在查询处理时间上比Feline至降低了20%。实验表明,随着数据集大小的增长,Interval-Index在存储空间和查询处理时间上都大致呈亚线性增长;相对而言,Feline的扩展性则较差,尤其是在查询处理时间方面相当逊色于Interval-Index。
其他文献
本文基于Yomosa提出的平面基转子模型通过对碱基的角转动位移来研究DNA双螺旋链的非线性动力学问题.对碱基对在垂直于螺旋轴平面绕双螺旋链转动的角Φ和Φ’进行讨论.在数值
蓝莓,杜鹃花科越橘属(Vaccinium spp.)植物,果实酸甜可口,最宜鲜食。蓝莓一般采收于高温多雨的夏季,采后果实继续进行呼吸代谢,消耗果实营养物质,水分散失,细胞壁物质在水解酶作用下逐渐降解,使果实极易软化腐烂变质,降低了果实品质。因此,亟需寻找一种能够维持采后蓝莓品质抑制其软化的贮藏保鲜方法。茉莉酸甲酯(MeJA)在植物中存在广泛,是植物自身通过生物合成的生长调节因子,参与植物生长发育,
超精密静压转台在精密机床加工领域占据重要位置,因此要求其具有较高的加工精度。静压回转工作台在实际工作过程中,因承受一定的偏心载荷使回转工作台发生偏斜,进而影响到回转工作台的回转精度,因此有必要研究回转工作台的动静运动特性,并分析静压回转工作台回转精度的影响因素。本文首先提出对小型超精密静压回转工作台的整体结构进行选型设计,并设计了一种可调式旋转加载装置,此试验台加载装置可以在减少结构拆卸的情况下实
工程岩体中的结构面大部分以充填节理的形式存在,在外部荷载作用下,充填节理面成为岩体的强度弱面,最易导致岩体沿此处剪切滑移至破坏,极大的威胁岩体结构的稳定性。因此,研究充填节理的剪切变形特征及锚杆的锚固作用效果,对岩体强度评价和稳定性控制具有重要的实际工程意义。本文以充填节理为研究对象,考虑不同影响因素设计剪切试验方案,重点探究充填物厚度和节理面形态对其剪切强度和变形产生的力学效应;采用锚杆加固充填
学位
研究背景与目的:人的精子发生过程包括精原细胞的有丝分裂、精母细胞的减数分裂以及精子细胞的变形过程。人睾丸的支持细胞(Sertoli cells)是人生精小管中唯一的体细胞,它不
实测道路谱下的疲劳寿命预测和可靠性评估是车辆耐久性分析中的重要研究内容和难点,本文研究在加速度测试载荷谱下,重型牵引车油箱支架的疲劳可靠性分析,具有很重要的理论意
近年来,以PPP(Public Private Partnership)模式为主导的项目进入快速发展阶段,PPP项目的市场化使民间社会资本达到了活跃状态,从而优化了社会资本在市场上的资源分配,这对提升我国财政经济水平有着重大的作用。然而需要深思的是当前遍地开花的PPP项目能否实现真正意义上的物有所值,即需要考虑在产品的交付相同且产出相同的环境下,相对于传统的采购模式,运用PPP模式能否够更加节约成
1947年,化学家Harold Wiener[25]为了估计出烃类物质的沸点提出了Wiener指标的概念,定义为W(G)= ∑{u,v}(?)V(G)dG(u,v).通过计算发现,应用这个方法求出的值与烃类物质的实际
海冰厚度是重要的气候环境变化表现因子,准确估算海冰厚度,对于气候变化研究、极区航行保障具有重要意义。工作在Ku波段的CryoSat-2和Sentinel-3A新型高分辨率合成孔径雷达高度计相较于传统雷达高度计,能够提供较高分辨率和更高精度的海冰厚度信息,是当前最先进的卫星雷达高度计。目前基于合成孔径雷达高度计数据反演北极海冰厚度存在以下三方面的问题:(1)Ku波段波长短,进行海冰探测时易受雪层干扰