社团划分算法并行化研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:sunwenjun19841120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社团划分在生物、医疗等方面有着举足轻重的作用,但是随着数据规模的扩大,经典的串行算法已经不能满足人们的需要,为了能够适应大规模数据的发展和信息化时代的到来,社团划分算法的并行化研究变得十分迫切。随着并行化计算的快速发展,并行计算已变得可能,尤其是MapReduce编程模型的应用给并行计算带来了极大的方便性。本文首先对谱平分法进行了优化,然后在MapReduce编程模型上实现了对谱平分法的并行化。MapReduce是Google的一个开源编程模型,相对于传统的并行计算模型来说,MapReduce对底层的细节进行隐藏和封装,极大地方便了用户进行并行程序的设计和实现。在使用MapReduce进行并行编程的时候,用户不需要考虑实现细节和消息传递等细节,只需要集中精力处理自己的并行任务。谱平分法是社团划分的一种经典算法,根据拉普拉斯矩阵的特征值和特征向量以及聚集性的关系进行社团划分。但是,对于海量数据的处理显得有些力不从心。随着数据规模的扩大,时间复杂度已经到了无法忍受的地步。为了解决这个问题,本文首先用Canopy和Lanczos算法对谱平分法进行优化,使谱平分法在运行效率上有了一定的提高。为了进一步提高算法的效率,本文在MapReduce编程模型上实现了优化的谱平分法的并行化,运行速度上有了更进一步的提高。实验分析表明,优化的谱平分法在社团划分问题上,准确率与优化前的谱平分算法基本保持一致。在算法执行速度和收敛性上,优化的谱平分法明显有了一定的提高。优化的谱平分法并行化后,随计算节点增多,算法的并行效率逐步上升,进一步表明并行算法在大规模数据上优越性。概括来说本文的主要工作和创新点主要包括以下三个方面:(1)提出了一种优化的谱平分法,首先在计算特征值和特征向量的时候引入了Lanczos,可以很快的求出满足条件的特征值;然后在最后对新样本空间进行聚类的时候,为了能够快速且比较准确的找到初始聚类中心,引入了Canopy算法,在初始化的时候将网络数据粗略的划分为若干了比较紧凑的子集,有利于初始聚类中心的选取,进而提高收敛速度。(2)考虑复杂网络的海量数据规模和MapReduce编程模型的特点,对数据的存储进行调整,通过对数据的合理分片和优化部署,实现负载的均衡和效率的提高。(3)将优化后的谱平分法使用MapReduce编程模型进行实现,通过实验数据,验证本文对优化的谱平分法并行化后的高效性。
其他文献
普适计算致力于将计算融入人们的日常生活中,将由计算和通信节点及系统组成的计算空间与人们生活的物理空间无缝地集成为和谐的人机交互信息环境。上下文感知技术是普适计算中
在人类的各种运动控制任务中,语音生成任务恐怕是最为复杂的。在当前真正具有生物学意义的语音生成和获取神经网络模型中,DIVA模型的定义和测试相对而言是最彻底的,并且是一
随着计算机和网络技术的快速发展,我们的生活和工作变得更加丰富、便捷和高效。但是,在以信息为第一财富的当今社会,企业和个人的信息资料都因为网络的开放性而存在着安全隐患,计
无线传感器网络是由大量具有信息采集、数据处理和传输功能的,集成有数据采集单元、数据处理单元、数据通信单元和能量供应单元的微型传感器节点自组织形成的无线分布式网络系
在流媒体系统中,媒体资源的有效传输是其关键问题之一,而以C/S模式、组播模式以及内容分发网络模式为基础的流媒体系统,都存在着缺陷。目前,P2P技术是能够处理流媒体传输问题
近几十年来,随着计算机技术和图像处理技术的日益发展,运动视频中的目标检测已经广泛运用到国防与国民经济建设的诸多领域。而随着其应用领域的不断扩大,人们对视频序列中运
随着网格计算、P2P计算、普适计算、云计算、Ad Hoc等大规模分布式应用系统的深入研究,互联网已经转变为一种开放式网络环境。传统的集中式访问控制模型已经无法满足开放网络
近年来,随着信息技术的飞速发展,嵌入式产品被广泛运用到人们的日常生活中,嵌入式实时操作系统(RTOS)亦随之逐渐渗透到学术界、工业界等领域。RTOS是对外部事件响应经过优化的操
计算机网络最初设计的目标,只是实现单纯的端到端数据传送,发展至今的互联网,几乎所有的流量都是建立在TCP/IP架构之上,尽管设备性能有了飞跃性的提高,但网络本身的架构却没
21世纪是网络经济的时代,伴随着互联网的迅速发展,internet上的信息量在不断增加,然而如何从浩瀚的信息海洋中得到所需要的信息就显得更加有意义。在信息检索中,搜索引擎使用