基于MapReduce模型的大规模社交网络高效分析算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jianbin0703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从Web2.0的兴起,在线社交网络吸引了许多国内外研究者的兴趣。这些社交网络有许多独特的结构性质如度的幂律分布、极短的网络半径和较明显的社区聚集特性。这些结构方面独特的性质直接或间接影响着网络中的信息传播以及人与人之间的交流互动,对于研究人类社会的组织架构形式以及人际关系的演化方式有着极为重要的作用。目前主流的社交网络的用户数已达到上亿规模,而用户之间的关系则达到了几十亿甚至上百亿的数量级。传统的工具(如关系型数据库)以及传统的算法(基于单CPU的串行算法)已无法胜任。针对探索在线社交网络结构的问题,本文主要以新浪微博和Twitter为例,并参照对比了其他有向社交网络的测量结果,全面探究了在线社交网络的结构特征,包括度的分布、关系的相互性、聚集性、度的相关性、路径长度和社区等。其中,新浪微博的数据集是本文通过一个分布式爬虫,经过3个月的时间从其网站爬取的结果,包含了1.35亿个用户和104亿条关系。针对大规模在线社交网络数据的处理问题,本文提出了若干种基于MapReduce模型的社交网络分析算法。其中最基础最核心的是半并行广度优先搜索算法。该算法在运算量和I/O负载等性能方面都要远远优于业界公认的图的挖掘算法类库——Pegasus。本文给出了所提出算法的理论性能分析结果,同时基于新浪微博的网络结构特征给出了经验性能分析结果和实测结果。
其他文献
期刊
期刊
随着互联网的发展和数字技术的进步,网络图像资源与日剧增。如何对海量的图像资源进行高效的组织、管理和检索,成为信息检索领域的一大难题。计算机领域的学者们尝试通过图像
本文详细的介绍了G.729协议的算法结构,包括了编码和解码两个部分,并着重研究了CS-ACELP算法中的线性预测技术、感知加权滤波、矢量量化、增益量化、自适应码本搜索和固定码
期刊
期刊
期刊
期刊
期刊
以Ethernet为基础的EPON(Ethernet over Passive Optical Network,以太无源光网络)是未来实现宽带、多业务综合接入的重要技术手段,它采用点到多点结构、无源光网络传输,在以