面向受限存储的大规模图分析算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:rockyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着图数据的广泛应用,图数据规模也在飞速增长。目前的图数据规模可以轻松地超越GB,达到TB、EB级别。使用内存图分析算法处理大规模图数据时具有高昂的内存空间代价,而使用外存图分析算法需要保证在计算设备内存空间较小时算法的可运行性,难以满足大规模图分析的效率要求。与此同时,图数据不断增长的规模也考验着基于索引的图分析算法。例如,一些子图查询算法需要在内存中存储与输入图规模基本相同的内存索引,部分可达性查询算法的外存索引的规模随着输入图规模呈指数级增长。本文讨论了以深度优先搜索、强连通分量计算、子图查询和可达性查询为代表的传统图分析问题在存储资源受限情况下的研究难点。由于子图查询和可达性查询常与特殊图模型相关,且知识图谱是一种典型的图模型,因此本文选择知识图谱作为二者的具体应用场景。具体地说,本文的主要研究内容和研究成果如下。首先,本文为大规模图在有限内存中的深度优先搜索问题,提出了一个高效的半外存深度优先搜索算法EP-DFS。不同于传统外存环境,半外存环境为计算设备内存空间大小设置了一个下限。具体地说,现有的半外存深度优先搜索算法在内存中为维护了一棵生成树,并不断地重构直至是的一棵深度优先搜索树。本文通过分析发现,由于在的重构过程中其节点的深度优先搜索顺序的变化具有不可预测性,因此传统算法需要扫描很多次,或引入复杂的CPU计算操作,或需使用大量的随机磁盘寻道操作。为了解决这一问题,EP-DFS采用了一个特殊的重构方式,并能够在算法运行的早期固定上大部分节点的深度优先搜索顺序,从而降低查询所需I/O代价、CPU操作难度和随机磁盘寻道操作数目。真实和合成数据集上的实验结果表明,EP-DFS的CPU代价和I/O代价均比传统算法降低了一个数量级。其次,本文也为在有限内存空间中的强连通分量计算问题,提出了半外存强连通分量计算算法EP-SCC。本文通过分析发现,由于传统半外存强连通分量计算算法为了降低内存空间使用量,仅在内存中为上的每个节点维护两个属性值,导致其难以在(1)时间内计算上两节点之间的可达性关系,并在查询过程中不得不引入一些复杂的优化函数,具有较高的CPU和I/O代价。故此,在EP-SCC中,本文提出了一个新颖的内存处理函数EP-Reduction。基于该函数,EP-SCC可在仅为中每个节点维护两个属性值的前提下,在(1)时间内计算上两节点之间的可达性关系,从而独立于任何优化算法。本文在真实和合成数据集上测试了EP-SCC和传统算法的性能差距,其中数据集WDC-2014拥有超过17亿个节点,数据集eu-2015拥有超过910亿条边。实验结果表明,EP-SCC的性能显著地超越了传统算法。此外,本文为知识图谱应用场景下的子图查询问题,提出了一个有限内存空间中的知识图谱代表性子图查询算法LKAQ。本文通过分析发现,随着图数据规模的飞速增长,传统算法为知识图谱构建的索引已经很难被存储于内存中,并且目前知识图谱上的子图查询算法仍以返回给定查询在上的结果全集为目标。但是,上的子图查询的结果全集中可能包含着海量的的子图,这对后续的分析工作提出了不小的挑战。因此,相比于,部分实际应用更加希望获得中的一部分具有代表性的结果。故此,为了实现在有限内存空间中高效地处理上的子图查询并为给定查询返回代表性结果集,本文设计了两个知识图谱上的轻量级索引I-Index和M-Index。基于这两个索引,LKAQ能够在查询过程中实现效率、内存空间代价和返回代表性结果数目之间的自动平衡。真实和合成数据集上的实验结果表明,在内存受限情况下LKAQ比传统知识图谱上的子图查询算法具有更好的性能,并且LKAQ在可用内存空间与的体积差异显著时依旧具有较好的性能。最后,本文为知识图谱应用场景下的可达性查询问题,提出了一个有限外存空间中有标签和子结构约束的可达性LSCR查询算法INSK。一方面,随着图数据规模的增长,传统可达性查询算法的外存索引体积庞大,已经难以被现有的外存存储设备所负担。另一方面,大规模图上的推理也不再局限于传统无约束的可达性查询或有标签约束的可达性LCR查询,其常与LSCR查询相关。本文通过分析发现,目前知识图谱上LSCR查询的解决方案均需要依赖在线搜索算法,并且搜索方向固定难以实现高效的查询。故此,本文为INSK设计了一个轻量级索引L-Index,并且基于该索引设计了一个复杂的启发式评估函数,从而令INSK能够打破传统无信息搜索算法的固定搜索方向,实现高效的查询。本文的理论分析和实验结果同时证明了,L-Index的外存空间代价远小于传统LCR算法的外存空间代价。与此同时,实验结果也表明INSK在真实和合成数据集上的查询代价较LSCR查询现有解决方案的优化算法低了一个数量级。
其他文献
随着现代化知识抽取技术的不断发展,许多领域都构建和发布了知识图谱。尽管当前有大量图数据管理方法提出,但是难以满足知识图谱体量大、模式复杂、更新频繁的特点对知识图谱存取提出的新要求,主要体现在下述两个方面:其一,知识图谱模式复杂的特点使得其存取方式相比关系数据更为复杂。而现有的图数据存储结构和索引的选择方法通常交由数据库管理员负责,而知识图谱体量大的特点使得数据库管理员难以掌握图的全貌,因此人工存取
学位
对话系统是指以人机对话形式提供信息或服务的系统,越来越受到学术界和工业界广泛的关注。目前,对话系统从功能上可以大致分为四大类:任务型对话系统、闲聊型对话系统、知识问答系统以及推荐系统。本文重点研究任务型对话系统,它能够帮助人们完成一些垂直领域的服务,例如查话费、酒店预订和订机票等,具有很高的理论意义和实用价值。近年来,任务型对话系统的研究主要分为两个流派:流水线任务型对话系统和端到端任务型对话系统
学位
随着大数据的兴起,无共享架构的大数据计算系统不断出现。数据划分问题是这类大数据系统中的核心基础问题,同时也是计算机科学领域的重要基础问题。数据划分问题是要将给定大数据分为尽可能规模相等的部分,使得划分后数据满足某个约束或者划分代价最小。实际应用中,规模相等的数据划分是系统实现负载均衡的基础,而满足约束的数据和最小的划分代价则是大数据系统实现计算、通信等性能优化的保障。由于大数据计算具有资源受限性特
学位
日间辐射制冷技术是地面物体仅通过强烈反射或散射太阳波段能量,并利用“大气窗口”波段以电磁波的形式向宇宙空间发射热量,在不消耗任何能源情况下即可实现低于环境温度的降温,是一种零能耗、零污染的新型制冷技术,可广泛应用于建筑节能、光伏电池降温和人体热管理等领域。但目前日间辐射制冷材料大多存在制冷性能低、结构复杂、制备成本高等问题,制约了辐射制冷技术的推广。辐射制冷涂料因其良好的场景适用性、易制备、可推广
学位
由于实际工程中的控制系统设计需要同时兼顾精度、暂态特性、外干扰的影响、参数摄动的影响、模型不确定的影响、控制幅值等诸多因素,因此其本质是一个多目标设计问题。现有的多目标控制方法较少,且大都对指标的形式以及参数约束的形式有严格要求(如线性矩阵不等式方法),这使得方法的适用范围受到了很大的限制。另外,由于很多实际系统中并不是全部状态都可量测,因此研究基于输出反馈的多目标控制系统设计问题具有重要的理论和
学位
作为一种新兴的电磁材料,超表面近些年来从光学领域引入到微波、毫米波以及太赫兹波段,由于其具有体积小、剖面低和出色的波前调控能力等优点,使得基于超表面的电磁波调控器件技术得到了飞速发展。超表面是由人工设计的亚波长尺寸的单元结构所构成的平面阵列,这种亚波长尺寸的人工单元结构可以被看作超表面的功能基元,可以实现对电磁波传播的基本特性(如极化、幅度、相位等)的灵活调控;超表面的人工序构,是将功能基元按照人
学位
糖尿病及其并发症作为重大非传染性疾病之一,主要体现为体内葡萄糖浓度异常波动。因此,研究对于人体分泌液中葡萄糖具有持续检测能力的传感器显得尤为重要。石墨烯场效应传感器具有结构简单、集成度高和响应快速等优点,常被应用于各种生物标志物的检测之中,对于疾病预防与诊断具有重要的研究意义和应用价值。近年来,用于葡萄糖传感领域的硼酸分子探针逐渐进入研究者的视野,但是目前已有的对于溶液中葡萄糖浓度进行检测的硼酸-
学位
随着能源日益短缺和微机电系统的大量应用,传统以化学电池为供能源造成环境污染和定期更换等问题,其持续供能问题矛盾突出。振动能量俘能器作为一种有潜力的、能替代的清洁能源形式,能够为低功耗的微机电系统持续稳定的供能。利用俘能技术能将自然界的振动能转化为有用的电能,其中,振动源包括风能、水能和机械振动能等。由于风能来源广泛且易于俘获,面向自然界中低流速的风能,本文提出基于翼型颤振压电俘能器,能应用于航空航
学位
动态无线供电(Dynamic wireless charging,DWC)技术以非接触的方式实现了电动汽车行驶过程中的实时能量补给,为电动汽车摆脱续航里程不足、车载电池成本高、停车充电频繁等瓶颈问题提供了一个根本的解决途径。动态无线供电系统中,磁耦合机构作为能量传输的核心部件,是决定系统传输性能以及经济性、安全性和可靠性的关键。纵向磁通导轨型(Longitudinal flux stretched
学位
电机系统正在逐步取代传统内燃机、液压装置,成为汽车、航空航天和舰船等运载领域动力执行机构的主流方案。作为动力执行机构的重要指标,可靠性和容错性一直受到重点关注。多相容错永磁同步电机作为一种兼具高功率密度、高可靠性和高容错性的容错电机方案,是未来运载领域动力执行机构的理想选择。为了提高多相容错永磁同步电机的故障隔离能力,本文提出了单双层混合绕组五相永磁同步电机(Hybrid-Single/Doubl
学位