论文部分内容阅读
随着Web2.0的发展,社交网络迅猛发展。它为人们提供了一个强大的分享、组织、搜索内容和建立联络的平台,已成为人们生活中不可缺少的一部分。日益增多的社交网络之上的应用,如人际关系扩展、社会舆论监督、广告投递、专家发现等,为社交网络数据管理带来了新的机遇和挑战。
距离连接查询是社交网络数据分析中的一个重要操作。对根据某种约束条件获取的两个社交网络节点集合,距离连接查询返回满足距离约束的点对。它不仅可以直接回答应用中的查询,而且是模式匹配等更加复杂查询的重要基础。
社交网络数据的海量特点使距离连接查询的实现面临挑战。由于社交网络规模庞大,我们无法在内存中存放整个数据。同时,单个节点的计算能力有限,无法提供令人满意的可扩展性。本文在充分调研国内外研究现状的基础上,设计了基于分布式环境中MapReduce框架的并行算法解决该查询。我们希望本文工作对分布式环境中复杂数据的管理也有一定的启发意义。本文的主要工作包括:
●设计了一种基于MapReduce的并行算法解决距离连接查询。该算法由一个循环的MapReduce任务链组成,采用广度优先的双向扩展查询方式,并引入了各种剪枝策略提高查询速度。
●提出了若干优化策略提高查询效率。主要包括:引入Landmark索引,采用剪枝-验证模式,减少待计算点对;提出了嵌套索引连接策略,以减少网络传输代价;设计了PTree索引,预先计算原图中小于给定阈值的最短路径,减少扩展次数并提供更高效的剪枝策略和提前终止条件。
●在由20个节点组成的Hadoop机群上完成了测试。通过在真实的社交网络数据和模拟数据集上进行大量实验,证明了优化策略的有效性和算法的高可扩展性。