分布式环境下大规模图数据上距离查询研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tianzhiziyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络分析、网络舆情发现等应用发展迅速,这些应用所基于的图结构规模也越来越大,在对图结构的研究中,对亿万个顶点级别的大规模图的处理能力的需求愈加迫切。因为如今图的规模太大,使得最短路径查询问题变得更加具有挑战性,其中包括大规模图结构的存储以及查询的效率等挑战性问题。传统的串行算法在处理大规模图结构时面临着巨大的问题。众所周知,云计算的发展与大规模数据的处理关系紧密。所以运用云计算环境,在大规模图上进行数据处理是一个十分有潜力的研究方向。最近几年,Hadoop是一个十分典型的云计算平台代表。于是,我们可以基于Hadoop来对我们的问题进行研究。本文主要结合云计算相关知识以及社交网络、交通网络实际应用,对大规模图上的距离查询经典问题进行研究。本文首先针对实际应用提出并行化的经典Floyd类矩阵乘法算法D-Floyd,并将该算法在Hadoop平台上进行实现。D-Floyd算法主要采用Hadoop中的MapReduce和HDFS两部分来将经典Floyd算法在分布式环境下进行实现。接着,我们对D-Floyd进行优化扩展,优化方案主要从D-Floyd算法本身和Hadoop平台两个方面入手进行考虑。然后我们研究了支持增量计算的D-Floyd算法,根据研究,我们定义“有界”和“无界”,提出部分增量的D-Floyd和完全增量的D-Floyd。我们将算法与已有的OptHCL-2方法、NaiveHCL方法、BSC2Hop方法进行多角度的分析比较,阐述分布式方案的必要性及优点。接下来,我们提出BFS计算无权图中最短路径的分布式解决方案并将其在Hadoop平台上进行实现,并与D-Floyd进行分析比较。通过试验分析,我们提出的D-Floyd算法显然要比已有的单机串行算法高效,而且优化后的D-Floyd算法和增量式D-Floyd算法的相关研究提出的方法都在一定程度上提高了D-Floyd算法的性能。此外,在无权图中D-BFS比D-Floyd性能要好很多,于是在实际的应用中,当要处理的图为无向图时,可以采用D-BFS方案进行计算,当要处理的图为有向图时,则只能采用D-Floyd方案进行计算。最后我们结合现有的一些经典算法如A*寻路算法、B*算法等在分布式架构上实现的思路,提出展望并实现相关应用。比如,我们可以将解决方案运用到社交网络人物关系图谱分析、网络舆情传播控制模型发现等应用中。
其他文献
在服务执行过程中,由于服务系统内外部环境面临的各种不确定性事件,导致服务可能无法按计划执行,或者无法满足用户的价值期望。在软件服务上,体现在客户端程序或服务端程序出现了
这几年来,信息科技不断发展和进步,计算机网络不断普及和推广,同时广大网民也面临着严重的网络安全问题,各种网络非法入侵活动F]益猖狂。虽然当前计算机网络采取了诸多防范技
随着信息和通信技术的迅速发展,无线网络在人们生活中的地位日益重要。未来网络发展的必然趋势就是网络与网络之间能够进行互联互通,同时应用趋于移动及普适。目前,网络表现出越
互联网科技的飞速前进,社会网络已经与每个人密不可分,社会网络中包含大量个人或组织的相关信息,社会网络分析者和数据挖掘者需要分享这些信息以获得对各个领域有用的知识。社会
近年来,随着车载设备、移动网络的高速发展,公民生活水平的不断提高,人们对车载播放设备的需求呼之欲出。本文选择了Android系统作为平台,设计研发了一套基于Android的车载多
随着多核处理器的广泛应用,内核之间有效同步问题成为并行编程的一个难题。传统的锁同步不能满足多线程编程的要求,事务存储作为一种共享资源同步的新模型被提出。因其具有较强
随着网络上信息量的飞速增加,怎样从巨大的信息宝库中有效地查找到符合用户需求的信息逐渐成为人们关注的焦点。在信息检索领域中,查询扩展是解决词语不匹配问题并提高检索效率
随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足基本的翻译的需求,但是用户对翻译
测试和调试是保证软件质量的重要方法,目前,许多重要的测试和调试方法均以执行距离的度量为基础,然而现有的基于执行距离度量的调试和回归测试研究尚存在许多问题。在调试方面,基
数据挖掘技术是多种学科相结合的产物,它集合了数据库技术、人工智能、机器学习等多学科发展成果,是一种理论性和应用性都很强的技术。作为一门多学科综合应用技术,此项技术