基于AP算法的社区检测算法及其并行化研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tj_tong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中很多系统结构都能抽象成网络,比如关系网络、新陈代谢网络、电子邮件通信网络、移动电话网络等。这些网络能够根据内部的相互作用表现出某些结构特征,其中社区结构(Community Structure)是这类网络中一个重要的特征,对网络中的社区结构的进行检测的方法叫做社区检测(Community Detection)。社区检测作为网络分析的基本任务有助于其它网络计算任务的完成,近年来有很多针对社区检测的研究并取得了不少研究成果。科学技术的不断进步使得网络的规模不断增大,现有的部分社区检测算法已经不能胜任大规模网络的社区检测任务。另外,社区检测问题能够转化为聚类问题,所以本文主要从相似性算法、聚类算法和分布式并行化计算三个方面入手对社区检测问题进行研究,本文的主要内容如下:1.在现有的一些针对网络中顶点之间相似性进行计算的算法研究中,大多数算法要么时间复杂度过高,要么没有充分的考虑整个网络的拓扑结构。基于以上问题,本文以随机游走模型为基础并基于个性化排名算法APR(Approximate Page Rank)算法,提出了一种快速的相似性计算算法,使得该算法在充分考虑网络的拓扑情况下提高网络中顶点之间相似性计算的效率。2.在社区检测的聚类阶段,现有的一些聚类算法不能够充分的利用网络中所蕴含的信息使得检测出来的社区质量不高。基于以上问题,本文提出了一种适用于针对网络进行社区检测的半监督聚类算法SSAP(Similarity Set based Affinity Propagation),该算法是基于AP(Affinity Propagation)算法的一种改进,提高了聚类算法在迭代时的运行效率以及整个算法的收敛速度。并结合提出的相似性计算方法,把社区检测问题转化成为了聚类问题。3.随着分布式计算的技术越来越成熟,比如基于Hadoop平台的Map Reduce并行化计算框架、基于内存模型的并行化计算框架Spark等。这些分布式计算技术的出现使得先前不能在单机环境下完成的计算任务得以实现。同时,在社区检测任务中,由于面临的网络规模越来越庞大,至此,本文在Spark框架下对所提出的社区检测算法进行了并行化实现,利用分布式并行化的优势使得该算法能够对大规模的网络进行社区检测。
其他文献
基于对象存储系统中,元数据存储量小,但是访问量大且管理复杂,元数据服务器在整个对象存储系统中占据重要的地位。现有的负载平衡策略中,当需要选择服务器存储热点数据副本时
随着深亚微米工艺的广泛应用,集成电路特征尺寸急剧减小,于此同时,工作电压持续降低,工作频率急剧升高,这一切都使得集成电路对于空间中的中子和封装材料中的α粒子,对电路的
视网膜眼底图像被广泛地应用于诊断各种眼底病变:如青光眼、白内障、老年退化性黄斑病变等,甚至也能帮助高血压、糖尿病、中风等全身性疾病的诊断。通过计算机图像处理和分析
P2P作为一种新兴的、高性能的分布式计算技术,近年来得到了迅速的发展。国内外众多的研究机构和企业都对其进行了大量的研究,同时也有很多基于P2P技术的应用系统问世,业界普遍都
P2P网络的自组织、分布式和匿名性等特点为病毒传播、自私行为、恶意欺诈行为提供了便利,导致节点之间缺乏信任,网络稳定性差。P2P网络中节点之间的信任关系和人类社会的信任
随着软件产业的蓬勃发展,软件的规模和复杂度越来越高。在软件开发过程中,调试工作的难度也随之提高。使用一般的调试方法,往往会遇到这样的困境:第一,由于系统的并行性和外
TD/GSM双模手机需求的多样性,使得传统的双模手机软件架构已达不到系统和用户的需求,为了有一个稳定、先进、可扩展的TD/GSM双模手机软件架构供开发商使用,利用分层模型和“框架
近几年,Spark作为下一代通用大数据计算平台,因其高效的海量数据处理能力得到了越来越多企业和研究人员的关注。Spark SQL作为Spark上的结构化数据查询引擎被越来越多的企业
随着科学技术的高速发展以及信息量的急速膨胀,在大规模信息可视化、虚拟现实和仿真、数字影院、展览展示、会议及教育等诸多领域,人们对显示技术的要求越来越高。主要需求表
通讯管理机是变电站自动化系统的信息中心,其对下负责管理各种电力系统二次侧的保护、测控装置和其它智能设备,对上为变电站当地后台和远方调度提供信息,并负责传递操作命令,是变