可扩展的面向关联的流式图数据划分方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gmwzg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社交网络、生物网络等构成的图的规模正迅速增长。许多应用场景都需要完整的图信息,但介于普通机器已无能力单独存储整张图,通过对完整的图进行计算从而进行信息提取变得越来越具挑战。为解决该问题,图的合理划分显得非常必要。现有图划分方法在处理大规模图数据时,不仅有巨大的计算和通信开销,同时也要求图的完整信息。另一方面,以在线社交网络Facebook为例,其用户账户每天都在创建或删除,朋友之间不断地分享图片、文字等信息;由此可见图已经不再是静态的,而是处于动态变化中。能否高效地对动态图进行计算处理,正被作为大数据处理领域的热点问题进行研究。在动态环境下图的平衡划分问题被称为流式图数据的划分问题。流式图数据的处理在包括划分聚类算法、分发策略等各个层面都面临巨大挑战。Assc是一种可扩展的面向关联的流式图数据划分方法,旨在处理此类规模持续增长的大规模流式图数据。该方法首先采用混合近似PageRank算法计算节点PageRank值并排名,然后根据节点的排名和关联关系,采用关联聚类算法对其聚类。Assc采用的策略一方面能对节点的连接能力进行量化评估,并以节点PageRank值低到高排序作为处理顺序,避免过早出现规模非常大的划分集合,从而确保划分的规模相似;另一方面充分挖掘节点间的关联关系,在聚类的每一步中尽可能将关联关系大的节点划分至同一个划分集合,提升划分的相关性的同时也降低了通信开销。最后,对比评估Assc与Hash和METIS两种算法。实验结果表明,在大量收集的图数据集上分别运行三种方法,Assc可以处理规模包含上亿节点的流图数据,评价指标边割、通信量的表现均优于Hash和METIS。流划分方法Assc不是为了替代全信息图划分,特定系统或应用需要足够好的划分也就意味着仍需要重划分图,即便图信息已被完全载入存储集群中,而Assc可以作为预处理步骤嵌入到普通的图处理系统中。
其他文献
本论文的技术背景是多端口路由器测试。ISO 9646有关中继系统的测试技术框架受面向一致性测试(Conformance Testing)和单序测试的限制,它推荐的“回绕测试法”(LTM)和“穿越测
软件测试能够检测软件中的错误并保障软件质量,是软件开发周期中最重要的环节之一。随着软件规模的不断扩大,软件测试中的各项费用也不断增加。软件测试自动化是减少测试时间
序列比对是生物信息学中基本的信息处理方法,随着人类基因组计划的推进得到了广泛的重视和深入的研究,但是目前还没有一个最佳的多序列比对算法。近年来,遗传算法的卓越性能
随着大数据时代的到来,数据归档对于企事业单位的作用愈加重要。光盘库因其低廉的价格成为近年来快速发展的海量存储设备。目前,存储系统在容量急剧增长及应用场景多元化的同
随着计算机的广泛应用和互联网技术的迅速发展,计算机应用技术已经在人们工作生活中变得越来越重要。针对社会各行各业开发的信息管理系统给人们的工作生活带来了巨大的便利,但
无线局域网是新世纪无线通信领域最有发展前景的技术之一。无线技术正在改变着人们传统的工作学习方式,使人们能随时随地获得高质量的网络语音、数据和图像服务。然而,随着无线
目前,我们已经进入了以网络计算为中心的时代,人们迫切需要在任何时候、任何地点访问所需要数据,移动计算为之提供了手段。它是无线通信、网络技术与移动计算设备相结合的产物,是
钱塘中间件平台软件(JTang Middleware Series)是一个大型集成化中间件平台软件,为了提供良好的可扩展性,有必要设计与实现一套高效的集群服务。P2P技术中每个节点处于平等地位
学位
在异构数据的信息集成和语义检索以及本体映射中,解决语义匹配一直以来都是一个难题。本体能够明确表示一定领域的概念和概念之间的关系,利用这一特点,本文进行基于本体的语义匹