社交网络中距离连接查询的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zhuxin1109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的发展,社交网络迅猛发展。它为人们提供了一个强大的分享、组织、搜索内容和建立联络的平台,已成为人们生活中不可缺少的一部分。日益增多的社交网络之上的应用,如人际关系扩展、社会舆论监督、广告投递、专家发现等,为社交网络数据管理带来了新的机遇和挑战。   距离连接查询是社交网络数据分析中的一个重要操作。对根据某种约束条件获取的两个社交网络节点集合,距离连接查询返回满足距离约束的点对。它不仅可以直接回答应用中的查询,而且是模式匹配等更加复杂查询的重要基础。   社交网络数据的海量特点使距离连接查询的实现面临挑战。由于社交网络规模庞大,我们无法在内存中存放整个数据。同时,单个节点的计算能力有限,无法提供令人满意的可扩展性。本文在充分调研国内外研究现状的基础上,设计了基于分布式环境中MapReduce框架的并行算法解决该查询。我们希望本文工作对分布式环境中复杂数据的管理也有一定的启发意义。本文的主要工作包括:   ●设计了一种基于MapReduce的并行算法解决距离连接查询。该算法由一个循环的MapReduce任务链组成,采用广度优先的双向扩展查询方式,并引入了各种剪枝策略提高查询速度。   ●提出了若干优化策略提高查询效率。主要包括:引入Landmark索引,采用剪枝-验证模式,减少待计算点对;提出了嵌套索引连接策略,以减少网络传输代价;设计了PTree索引,预先计算原图中小于给定阈值的最短路径,减少扩展次数并提供更高效的剪枝策略和提前终止条件。   ●在由20个节点组成的Hadoop机群上完成了测试。通过在真实的社交网络数据和模拟数据集上进行大量实验,证明了优化策略的有效性和算法的高可扩展性。
其他文献
推荐系统不仅是多年来学术界的研究热点,而且已经成为当今网络应用中必不可缺的功能之一。推荐系统要解决的基本问题是如何在恰当的时候把恰当的信息用恰当的方法提供给恰当的
当前,Internet上涌现出了大量的Web服务,开发人员开发新系统时可以直接复用这些Web服务以实现特定功能。北京大学软件资源库收集整理了上万个Web服务,提供给开发人员复用。然而
雷达导引头是用于目标探测、跟踪,并向导弹控制系统提供目标位置及运动参数,引导导弹飞向目标的弹上雷达装置,捷联式惯性制导是导弹导引头实现简化封装、减小体积的必然途径。在
随着信息技术的发展,网络已经成为人们生活不可或缺的一部分。物联网的出现使得网络概念从互联网发展到人与人、物与物、人与物互联互通的网络。作为物联网感知层的无线传感器
随着消费类电子产品相关技术的不断发展,开机速度已成为电子产品是否能脱颖而出的重要决定因素,很多产品在追求即开即用的效果。在这样的行业需求下,本文针对北大众志PKUnity
随着当前科学研究领域的不断扩展与发展,科学计算的算法越来越复杂,涉及的数据规模越来越大,带来程序开发复杂性和计算效率两方面的难题。   任务群计算(Many-Task Computing
随着电子技术的发展,爆闪式信号灯在多个领域内获得了广泛地应用。如何提高爆闪灯的产品质量是当前一个重要的研究课题。对爆闪式特种信号灯的质量检测更具有重要的研究意义和广泛的应用价值。但是,如何在大规模批量生产中实现对爆闪灯快速准确的检测,仍是目前爆闪灯的生产领域亟待解决的“瓶颈”问题。因此,本学位论文设计一种爆闪式信号灯的智能型检测仪,通过其对产品质量进行测试与评估。首先,本文对爆闪式信号灯的工作原理
运动人体的跟踪技术研究是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、智能监控、图像检索及军工等众多领域中。本文就低对比度的复杂环境下运动人体
真实感绘制一直是计算机图形学的一项基本研究内容。它首先在计算机中构建场景的几何模型,然后根据假定的光照条件,计算在最终图像上可见的各物体表面的光亮度,并使用纹理映
关键短语自动标引技术可以有效地从文本中自动抽取出关键短语,近年来一直是自然语言处理领域的研究热点之一。其中,自动抽取方法是当前主流的标引方法。在本文中,我们对关键短语