面向图计算的分布式存储系统设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangguoqiang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web和社交网络的兴起,图计算相关的应用已经成为计算机领域的一个热点。为图计算提供数据存储服务和查询服务的图数据存储系统,在面对社交网络这种大规模数据集时,也正遭遇着前所未有的挑战。本文分析现有图数据存储系统中存在的问题,并提出相应的解决方案,最后在此基础上实现一个面向图计算的分布式存储系统。  现有图计算系统中普遍采用分布式文件系统或者NoSQL数据库来管理图数据,除此之外也有专门的图数据库,比如Neo4j,GraphDB等。这些系统在各自擅长的应用背景下工作的很好,基本上满足了图计算的存储需求,但是图数据存储管理依然存在三个突出的问题:1)现有的图数据存储系统缺乏一种高效的数据组织方式来支持图数据的读写操作,像Neo4j这种知名的图数据库,底层虽然也是采用图数据模型存储,但是其以顶点和边为中心的结构使得读写效率不高;2)现有的图数据存储系统都采用通用的缓存机制,比如LRU,并没有结合图数据自身的特征,从而使得缓存命中率不高;3)现有的图数据存储系统缺乏一种任务调度机制,对任务集都是采取顺序执行的方式,没有考虑到任务之间的相关性,从而产生了大量重复的磁盘IO,降低了系统的性能。  针对以上问题,本文提出了三项关于分布式图数据存储系统的关键技术。并在实际应用场景中设计和实现了分布式图数据存储系统Panda。本文的主要研究内容如下:  1.设计了一种以顶点为中心,顶点邻域索引化的数据组织机制。边作为顶点的属性进行存储,并对边数多的顶点自动建立轻量级索引,使得图数据存储系统能够高效地处理有关图的操作。  2.设计了一种感知顶点度数的LRU缓存策略。顶点度数越多的顶点,下次被访问的概率越大,结合这个特征设计的LRU缓存策略减少了磁盘与内存的换入换出次数,从而提高系统的性能。  3.设计了一种具有合并操作功能的任务调度机制。对接收到的任务集首先进行调度,把相关的任务调度到一起执行,并且把多个相似的任务合并成一个任务,很大程度上减少了任务的数目,从而提高图数据存储系统的吞吐率,降低客户端的通信延迟。  本文通过分析现有图数据存储技术中的不足,并针对这些问题提出了解决方案,最终设计并实现出了一个分布式图数据存储系统,该系统具有良好的可扩展性,高效地读写性能,能满足社交网络这种大规模数据集带来的挑战。
其他文献
近些年来,互联网基础设施发展逐渐陷入僵化形势,通过研究创新促使互联网朝良性方向演化是未来网络发展的唯一出路。未来互联网试验床为下一代互联网体系研究提供了规模可观的试
为了提高室内覆盖质量,满足用户不断增长的业务需求,LTE中引入了家庭基站技术。家庭基站的引入提高了系统容量,增强了网络覆盖,减轻了宏网的流量压力;同时也带来了干扰,频繁切
随着数据挖掘、模式识别等领域的发展,机器学习越来越受到人们的重视,作为机器学习领域的一种重要算法,支持向量机由于其优良的性能指标得到了广泛的应用。而对于面向服务器和高
量子化学(Quantum Chemistry)是应用量子力学(Quantum Mechanics,QM)的基本原理和方法研究化学问题的一门基础科学,用以研究分子体系的微观结构、性能等。由于受到QM计算复杂度和
空间科学是指利用航天器研究发生在日地空间、行星际空间及至整个宇宙空间的物理、天文、化学和生命等自然现象及其规律的科学。一直以来,太阳的活动对地球有显著的影响,日冕物
网页关键信息抽取是指从网页中抽取关键信息。关键信息是该网页区别于其他网页的信息。网页关键信息抽取在信息检索、辅助移动设备用户浏览、网络数据分析等方面有非常广泛的
随着互联网技术和视频技术的发展,网络视频的数量呈现出爆炸式的增长速度。台标作为网络视频的一个最显著标志之一,对于视频检索、视频监管均具有重要的应用价值,同时视频台标检
随着通信技术的快速发展,视频的传输和扩散越来越便捷。随之而来的版权保护问题也得到了越来越多的关注。视频水印就是常见的.有效的版权保护方法。为了能够有效的保护版权,
计算机内存系统是影响体系结构、系统软件和应用软件效能的最重要因素之一。过去几十年,由于处理器与内存之间的性能差距越来越大,内存系统已成为制约系统性能的瓶颈。近几年,高
学位