基于Hadoop的社区发现算法并行化研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:ytw1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现算法是研究复杂网络中社区结构的主要方法。随着网络规模爆发式的增长,传统单机、串行的社区发现算法已不适用于处理当前大规模的网络。Hadoop作为新兴的一种大数据处理技术,因其高扩展、高可靠、编程模型简单受到许多开发者的青睐。针对当前串行社区发现算法处理网络规模有限问题,本文结合Hadoop框架在大数据处理方面的优势提出两种串行社区发现算法并行化改造方案。针对Fast-Newman算法计算节点模块度复杂度比较高问题,本文提出基于Hadoop框架调度的Fast-Newman并行算法。并行化Fast-Newman算法存在的主要难点为在map函数中各节点无法获取其邻居节点的信息,故还需借助Web服务提供全局图信息。改进后的Fast-Newman算法将在map函数中并行的计算每个节点与其邻居节点合并后的模块度增量,在reduce函数中汇总找出模块度增量最大的两个节点并将该两节点合并,此为一次合并过程。合并后的结果重新作为map函数的输入,迭代执行map、reduce过程直到所有节点合并成一个社区。采用Ego-Facebook作为数据集,在仿真环境下实验结果表明并行化后的Fast-Newman算法具有较高的加速比。针对处理大规模网络难问题,本文提出基于Hadoop的Fast-Unfolding并行化算法PFU(Parallel-Fast-Unfolding)。该算法主要采用“分而治之”的思想,首先将大规模网络分区并各自合并,然后根据各分区合并结果重构网络,最后迭代合并重构网络直到社区结构不再发生变化。该并行化方案存在两个难点:一是如何保证分区后边连接信息不会丢失;二是分区完成后如何重构网络。针对上述两个难点,本文通过改进数据存储方式以及设计重构方案有效地解决了该问题。在真实网络和生成网络两种数据集上实验结果表明,PFU算法在保证准确率的基础上明显的提高了算法运行的效率,具有较好的扩展性。最后,根据map、reduce阶段输出的中间文件,用gephi软件对结果进行可视化提高了PFU算法的应用价值。
其他文献
利用美国1979~1995年NCEP/NCAR再分析及其它格点资料进行分析,发现汛期影响我国特大暴雨及洪涝灾害的,是一支存在于南、北两半球之间的非亚支'宏观气流系统',它的气流
2001年6月18日,国家教育部颁发了<基础教育课程改革指导纲要(试行)>,并决定从2001年秋季开始,利用5年时间在全国中小学逐步推广新的课程体系.一年多来,新一轮的课程改革风起
摘要:公共关系是现代管理的组成部分,它利用传播技能和研究方法作为主要工具,帮助一个组织建立并保持起公众之间的相互交流、理解、认可与合作。随着经济体制改革的深化,企业逐渐成为独立的经济实体。为了加强市场竞争能力和争取内外公众的理解与支持,企业就必须向外界宣传和保护自己的良好信誉和形象,必须及时、准确的收集和反馈公众信息,必须重视公共关系。 本文就公共关系的涵义、职能、功能、作用以及如何运用公共关系促
本文以动态的观点,根据灾害发生的不确定性以及未来各时间内,净现金流量发生的不确定性,将整个现金流量过程看作是一个随同过程,提出计算模型,达到相对正确地、动态地估算出平均防
1988年9月9日,报经陕西省经济体制改革委员会、陕西省科学技术协会和中国灾害防御协会批准,陕西省灾害防御协会(又称中国灾害防御协会陕西分会)成立。1993年5月陕西省灾害防御协
基于组态的PLC控制实时操作系统的主要处理过程是PLC与上位机之间进行实时通信,上位机能够将所采集到的数据进行记录、处理:对系统中的历史数据、曲线、报表输出等数据信息进行
如今是一个网络时代,信息网络技术在各行各业都得到了非常广泛的应用,在离退休管理工作开展的过程当中,应用信息网络技术能够实现离退休管理工作的现代化。因此,充分探究信息
调查的目的和意义中等师范学校是培养小学教师的摇篮,中师生的环境意识水平的高低直接影响未来小学生的环境意识的发展.并且中等师范学校没有升学压力,学生的课业负担较轻,在
根据防洪抢险物资储 备 属于一种信息不全型决策问题的特点,本文提出了一种用于确定每年防灾物资准备量的概率 排序型决策模型,并以孙水河流域泥石流灾害预报减灾决策为例进行
根据北京市1951年-2010年的降水和气温数据资料,综合运用滑动平均法、Mann-Kendall检验、Hurst指数法、GM(1,1)模型等方法,从不同时间尺度和层面上分析北京市降水和气温变化