基于同步流水线的Gremlin语言并行优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hao999999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,当今社会对海量图数据的处理需求日益增加,例如社交网络、电子商务交易等都可以被组织为图数据,而Gremlin作为一种典型的图数据库查询语言,其底层单核处理机的串行执行方式,已无法适应现代大型图数据处理运算的需求,因此多核并行计算已成为提高其查询速度的主要方式。COStream是一种高效的数据流编程模型,采用同步流水线的方法生成可在多核上并行计算的程序进而提高程序执行效率,因此可以通过研究COStream模型中对数据流的处理方法来对Gremlin语言进行并行优化。针对Gremlin程序无法并行执行导致其查询效率不高的问题,利用Gremlin语言具有数据流式的特性,使用COStream对数据流的处理方法——同步流水线加速方案来对Gremlin进行并行优化。针对Gremlin程序生成数据流图,通过标记上下文解决嵌套Step的处理问题。针对同步开销大导致执行效率提升不明显的问题,设计了动态划分的策略来均衡各处理器核的负载,同时经过测试选取周期数,使单个周期内处理器核处理的数据量达到最佳,有效缩短同步时间,使查询性能提升。研究分析Gremlin的执行逻辑,针对它在空间和时间上消耗较大的问题进行优化改变其执行逻辑,使新的执行逻辑更加符合数据流的特点,也更加符合同步流水线方案的执行流程。同时对缓冲区进行缓存优化,保证多核数据访问一致性,消除运行时核间缓存伪共享。选取典型的查询语句作为测试程序,在LDBC数据集上对Gremlin的并行优化方法和数据流图生成方法进行了测试,实验结果表明,与原本的Gremlin相比,优化后的Gremlin能够将查询调度到多核上并行执行,缩短了查询时间,提升了查询效率,增加了用户友好性。
其他文献
互联网的兴起与定位技术的进步为基于位置的社交网络(Location-Based Social Network,LBSN)的发展提供了数据和技术上的支撑。随着网络规模的扩大,海量的数据内容造成了信息过载的问题,用户检索时间的开销增大,导致信息的利用率下降。因此如何在LBSN中发掘用户的下一个兴趣点(Point-Of-Interest,POI)成为亟需解决的任务。然而现有的下一个POI推荐任务仍存在缺
学位
针对高陡岩质开采创面由于质地不均一、坡度变化较大、稳定性差别较大等造成废弃矿山生态修复效果不理想的问题,以铜陵市义安区桃园硫铁矿废弃矿坑综合治理工程为例,进行了高陡岩质开采创面柔性生态棒生态治理研究。研究结果表明:柔性生态棒修复技术在桃园硫铁矿废弃矿坑综合治理生态修复工程中取得了较好效果,基本消除了视觉污染、减轻了水土流失,并形成了稳定健康的草、灌、乔、藤多层次植物群落,可为类似高陡岩质开采创面较
期刊
移动互联网时代,GPS技术的快速发展以及道路网络的日益复杂给导航应用程序带来新的机遇与挑战。目前许多导航应用程序允许以语音作为输入,避免了用户手动输入文字,提高了交通安全性。但是,现有的导航应用程序通常无法理解用户对路径的自然语言描述,仅识别用户以指定模板发出的指令。例如,现有的导航应用程序仅支持用户输入单一的出发地或目的地,不能设置额外的个性化路径搜索要求,无法满足人们日常的出行需求。为扩展现有
学位
近年来,我国出台了多项政策大力推动智能安防产业发展。在智能监控场景下,应用多目标跟踪算法,可以对其中的人物进行实时、准确的跟踪,因而具有很大的研究价值。现有的多目标跟踪算法,存在遮挡情况下容易跟丢目标、跟踪轨迹不连续、跟踪漂移等问题。针对上述问题,提出了相应的解决方法。首先,提出基于注意力的多目标跟踪算法。原有算法重识别(Re-identification,Re ID)分支对目标辨识力强的特征提取
学位
隐蔽通道是用户可以绕过强制访问控制检查进行隐蔽通信的一种机制,标识一个系统中的隐蔽通道是高安全等级系统的开发和测试中必不可少的工作。源码层面使用信息流分析技术搜索隐蔽通道时,现有方法难以确定虚函数调用处的被调用函数。此外,面对大型系统的修改、引用和返回关系表,使用隐蔽流树法搜索隐蔽通道时,会创建大量重复节点致程序占用内存过多而无法给出计算结果。改进现有方法,对提高数据库这样的大型系统的隐蔽通道分析
学位
供水管道是保障日常生产活动正常进行的重要基础设施,在长期使用中受自身寿命或外界破坏性因素的影响会发生破裂造成漏损。及时的泄漏检测对节约水资源、防止二次污染以及可能带来的次生灾害至关重要,目前常用的检测方法通过采集和分析振动信号确定泄漏是否发生。泄漏振动信号十分微弱,采集时受环境噪声影响大,传统的检测方法无法有效地区分环境中存在的非平稳噪声,检测效果不稳定并且依赖检测人员的经验。大量的泄漏检测设备一
学位
纠删码作为一种以条带的形式存储数据的容错技术,广泛应用于当前的大规模存储系统中;相比副本容错技术,纠删码能以更低的存储成本来提供相同容错能力。为了进一步降低存储成本,业界开始研发“大条带纠删码”技术,通过增加条带长度来压缩校验块在每个条带中的比例以节省更多存储空间。然而,现有“直接编码”生成大条带的方式通常因编码速度下降而导致数据生成缓慢。一种可行思路是通过“扩展转换”来生成大条带,即首先将新写数
学位
区块链在金融、能源、医疗、食品等众多关键领域有着极高的应用价值,然而当前区块链的性能严重限制了其在现实场景中的落地。其中最具代表性的以太坊区块链,其区块处理时延严重受限于状态树引入的海量数据库查询。现有的针对性解决方案多会导致显著的负面效应,如内存、网络带宽等硬件成本的急剧上升,因而难以广泛应用。通过深入分析以太坊工作流与负载,观察到状态树单条分支“一热俱热”的访问规律:绝大多数情况下,热点账户及
学位
通信技术与物联网技术的发展导致物联网终端爆发式增长,感知数据和物联网应用呈指数级增长,推动智慧类应用需求高速发展,对计算存储资源提出更高要求。集中式云计算框架受制于网络拓扑、回传带宽和网络延迟等的影响,难以满足智慧应用场景对处理时延和网络开销的需求。边缘计算框架借助靠近物联网终端侧的多接入边缘计算(Multi-access Edge Computing,MEC)设备,卸载全部或部分计算任务,能有效
学位
作为组合优化领域中经典的NP难问题,集合覆盖问题有重要的理论研究意义和工业应用价值。为了求解对时间要求较高的调度问题,如物资运送、机器调度、卫星拍摄,提出了一个带冲突的集合覆盖扩展问题,称为最小最大加权集合覆盖问题(Min Max Weighted Set Covering Problem,MMWSCP)。在该问题中,元素表示需要完成的任务,每个集合具有一个时间段属性,表示该集合中的任务只能在这个
学位