论文部分内容阅读
对大规模图进行良好划分是实现对其分布式处理的重要基础之一。研究发现已有的图划分方法难以对大规模图实现较优的划分,即便是能够划分大规模图的方法,但由于忽略了图的结构性对划分效果的影响,导致难以对全局实现良好的划分。因此,以降低通信开销和实现负载均衡为目标,研究基于结构特征的大规模图划分算法,对分布式处理大规模图有重要的理论价值和现实意义。首先,研究大规模图结构特征对划分效果的影响。提出通过顶点度的分布特征来描述图结构特征的方法,并基于真实图数据产生若干顶点数和边数相同但结构特征不同的仿真数据集,通过相似度计算,证明该方法对描述真实大规模图结构特征的有效性。通过实现Hash和点对交换划分算法,实验验证结构特征与划分效果之间的关系。实验结果表明,点对交换算法能够有效降低通信代价且图的顶点度分布差异越大,划分后交叉边数量越少,划分质量越好,由此可证,图的结构特征影响划分效果。其次,研究如何提取出大规模图数据中的结构特征。包括定义大规模图的结构特征以及提取原则,设计基于顶点度优先策略的图结构特征提取算法,通过参数调优对多个顶点和边数相同但结构特征不同的大规模图进行提取实验,实验结果表明该算法能够有效的提取图结构特征,为下一步实现基于结构特征对大规模图进行划分奠定基础。最后,研究如何基于图的结构特征对大规模图进行划分。通过实验分析比对Hash划分算法、点对交换算法和遗传算法,从中选取划分效果较优的遗传算法。为达到对有权图进行较优的划分,对其适应度函数进行改进,保证负载均衡的划分结构特征中的关键顶点。在关键顶点得到良好划分基础之上,给出了非关键顶点划分方法,依次完成对整个大规模图的划分。通过对多个真实图数据进行划分实验,结果表明,基于结构特征的大规模图划分算法能够实现负载均衡,其时间性能优于点对交换算法,且交叉边个数少于Hash划分算法,由此可得,该算法对于大规模图的划分是可行且较优的。