基于种子扩展的社区发现算法及其并行化

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:gongjuntao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现是数据挖掘领域针对复杂网络的一个热门研究话题。随着网络的不断复杂化,传统的社区发现算法早已无法满足人们对网络更深层次的要求,因此,基于种子扩展的社区发现算法成为近年来社区发现算法研究的一个热点,它在种子选择和社区扩展等方面发挥着很大的优势。如何选择最合适、最准确的种子,如何制定社区扩展的策略,最大限度的提高社区划分的准确性和效率是重中之重。结合上述问题,本文从种子选择和社区扩展两方面,提出了一种新的基于种子扩展的社区发现算法,并对其改进和并行化处理,其具体工作如下:(1)针对大多数重要节点衡量方法的片面性和不准确性等问题,本文提出了一种基于局部信息和全局信息的节点影响力计算方法(LGI,Local and Global Information based Node Influence Method),利用节点在网络中的局部信息和全局信息,衡量每个节点的综合影响力,挑选前k个影响力大的节点作为种子。实验表明,LGI方法不仅能发现影响力高的节点,而且与其他节点影响力计算方法相比,节点影响力排序结果更加准确。随后,本文提出了一种基于种子扩展的社区发现算法(SELCDA,Seed Expansion and LDA based Community Detection Algorithm)。种子和邻居节点共同组成初始社区。引入基于Gibbs采样的LDA主题模型,根据未分配节点到各个主题的概率,获得到各个社区的概率,将未分配节点划分到概率大的社区,从而获得网络的社区结构。实验表明,与其他社区发现算法相比,SELCDA算法发现的网络社区结构更加精确。(2)针对SELCDA算法初始社区重叠率过高,社区扩展策略不稳定等问题,本文提出一种基于相似性和距离的社区发现算法(SDCDA,Similarity and Distance based Community Detection Algorithm)算法。在种子选择阶段,加入过滤操作,防止种子相邻,初始社区过度重叠;在社区扩展阶段,根据未分配节点与社区的相似性和到社区的距离倒数之和,计算未分配节点到各个社区的优先级,将其划分到优先级较高的社区。对社区融合归并,获得网络社区结构。实验证明,与SELCDA算法相比,SDCDA算法进一步提高了社区发现的准确性。最后,基于Spark并行化计算框架,实现SDCDA算法的并行化(PSDCDA)。实验证明,随着CPU核数的增加,PSDCDA执行时间不断减少,且与其他并行化社区发现算法相比,PSDCDA算法在大规模数据集上表现出高准确性。
其他文献
Armendariz环于1997年由Rege和Chhawcharia提出的,这类环吸引很多研究者的关注,被多方面的推广,也取得了很多重要的结果.称无非零幂零元的环为约化环.Armendariz首先指出约化环R具有如下性质:对于任意的f(x)=(?)aixi和g(x)=(?)bjxi∈R[x],当f(x)g(x)=0时,必有ajbj=0(0≤i ≤ m,0 ≤j ≤ n).称上述性质为Armenda
《委托者》是一本典型的通俗小说,具有通俗性,可读性的文本特点,文中一些描写营造出了惊悚、悬疑的氛围,细节的描写是该小说的特色之一。对于细节描写,需要译者根据上下文推断作者想要表达的意思。另外该小说运用了比喻拟人等修辞手法,使得小说中的语言更加形象生动,感染力更强。根据纽马克的文本类型理论,《委托者》属于呼吁型功能文本,宜采用力求译文对读者产生的效果接近原文对读者产生的效果交际翻译策略。鉴于此,作者
随着我国经济发展和科技进步,能源与环境问题已成为当今社会突出的两大社会问题,环境污染治理日益引起人们的广泛重视。光催化技术是近几年兴起的新型污染物治理技术,因其绿
现如今,近九成以上的计算机主机装配作业是通过人工流水线和PLC程序控制半自动装配线来完成,自动化程度低、装配精度较低、装配结果不稳定、装配效率不高是普遍存在的问题。本文针对计算机主机装配定位当中所存在的品种多,适应性差,重复定位精度低,生产效率低下和自动化程度低等问题,对计算机装配过程中CPU、内存条、散热器装配特征进行研究,设计了计算机主机装配线视觉系统,研究了多相机全局标定算法和圆、直线几何特
21世纪工业化发展使能源消耗愈发严重,寻找新型绿色能源材料迫在眉睫。热电功能材料可以实现热能和电能的相互转换,针对目前存在的大量废热损失,提供了再利用的可能性。SnSe作为热电材料之一被广泛研究,其单晶热电优值高达2.6,成为高性能热电材料之一,但单晶不适合大规模生产、制备复杂、机械性能差,因此制备SnSe多晶并改善其热电性能成为国内外相关研究热点。本文采用水热合成法,以一种成本低廉、无添加剂、方
在汉语语言学习中,对外汉语写作课是一门以培养汉语学习者写作能力、写作技巧为目的的汉语课型。对于汉语学习者来说,写也是体现综合能力的一项重要技能。从目前的汉语写作教学模式来看,并不十分完善。在教学的过程中,教学模式会在很大程度上影响学生的写作兴趣。任务型产出导向法应用在对外汉语写作课上,不仅是通过任务设计提高学生的学习兴趣,更是通过任务环节的设计和实施来完成写作的教学目标,切实提升学生的写作信心和能
基于CN05.1气温观测数据集、NCEP/NCAR再分析资料、NOAA海冰资料以及NCAR CESM模式等资料,首先利用极端低温指数、百分位阈值法等方法分析了中国北方地区1961-2016年冬季日最低气温的变率、年代际变化特征,继而研究大气环流场与其年代际变化的联系,最后预估了全球增暖1.5/2℃背景下中国北方极端低温的变化、概率比及避免影响。得到如下主要结论:(1)中国北方冬季极端低温阈值呈带状
呋咱环(Furazan)是一种含能氮杂环,它具有氮含量高,生成焓高,活性氧含量高和热安定性好等特点,因此,将其作为结构单元的新式高能密度材料的研究一直是很多国家的研究热点。其
木本生物燃料作为一种清洁能源,在绿色能源产业的发展壮大中具有十分重要的地位和作用。实现木本生物燃料产业可持续发展能够在一定程度上缓解我国能源紧张的局面,也有利于社会主义新农村建设和维护生态系统平衡。但是,木本生物燃料产业也面临着一系列高消耗、高成本的问题,只注重环境效益,却忽略了经济、社会、资源环境的协调发展,这严重阻碍了木本生物燃料产业的长远发展。因此,评估现阶段并预测未来阶段的木本生物燃料产业
铁塔安全监测无论是对通信铁塔安全还是输电铁塔安全都至关重要。在铁塔工作期间,不断遭受风霜雨雪、电磁场,甚至地震等极端环境的影响,极易发生弯曲变形、倾斜甚至坍塌等重大事故。因此许多学者研究实现了基于无线传感器的铁塔在线监测系统来对铁塔安全进行在线监测和预警,从而提高铁塔运维的效率。在监测系统中如何合理利用收集到的铁塔状态数据进行异常检测和预警是目前工业界的一个重要研究课题。通过无线传感器采集和传输的