云计算环境下的社区检测方法及性能优化技术研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:sxquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的服务模式不断创新、应用功能日益丰富,正逐渐渗透到即时通信、新闻推送、支付交易、游戏娱乐等社会生活的各个方面。对社交网络中社区检测的研究成果已被广泛应用到市场精准营销、搜索引擎开发、网络舆情分析等众多领域。然而由于在线社交网站的用户数量急剧上升,网络规模快速增长,产生了样本数量巨大、关系复杂、超高维度的社交网络大数据,使得社交网络大数据分析的性能成为社区检测结果是否具有高价值的关键因素。因此,对大规模社交网络进行社区检测面临如下挑战:社交网络中的多样化数据类型使得根据异构数据源进行社区检测变得更加困难;对基于云计算的大规模社区检测的性能需求愈发迫切;巨大的用户数量使分布式社区检测中的统计推理成为性能瓶颈;高维数据导致的频繁构造列联表严重影响了分布式社区检测的效率。
  针对社交网络大数据分析中多样化、高速度、大容量和高维度四个方面的问题,论文研究工作分别对如何使用多元化社交网络数据提高社区检测的准确性、如何使用云计算资源以较高的并行度进行社区检测,以及如何提升大数据量和高维数据下的分布式社区检测的性能进行了深入的研究。研究工作的主要创新性成果如下:
  (1)提出了一种基于概率图的社交网络社区检测方法。建立了基于概率图的社区检测模型,根据用户特征相似度概率图对用户特征相似性之间的潜在关联进行建模;采用社交圈集合以同时描述与社交圈相关联的用户和特征;给出了关系概率集合的计算方法,可描述在给定一组用户和社交圈时自我网络形成的概率;提出了特征相似度概率图学习算法,并给出了基于概率图的社区检测模型的评分函数。使用Facebook、Twitter和Google+等真实数据集进行了实验,验证了由本文提出的FSPG学习算法训练得到的PGCD模型可以高效、准确地预测社交圈。
  (2)提出了一种基于StormTopology的分布式社区检测方法。通过将一个有向无环图的评分和扩展操作作为基本计算单元,使得集中式社区检测的过程可被划分到最细的粒度,提高了FSPG学习算法的并行度;设计了一种标识符自动生成机制,以保证每个概率图模型只对应于集群中的一个计算节点,从而能够自动检测并处理搜索空间中的环路;通过使用每个概率图模型的哈希值作为状态元组的键值,实现了更高效地向计算节点分配计算任务。分析了算法的并行度,并搭建了Storm云计算平台,在分布式环境下进行了综合的性能测试实验,验证了算法可以达到很高的并行度,并且在数据量较大时性能有显著提升。
  (3)提出了一种基于稀疏ADtree的分布式社区检测性能优化方法。提出基于稀疏ADtree的充分统计量提取算法,通过使用稀疏ADtree存储充分统计量并分发给各个搜索和评分节点,可避免各搜索和评分节点对分布式文件系统的频繁访问;提出基于稀疏ADtree的概率图快速评分算法,在评分节点中使用稀疏ADtree恢复出列联表以计算概率图的评分值,并通过建立本地列联表集合以减少列联表的重复计算。使用真实数据集在分布式环境下进行了性能测试实验,实验结果表明社区检测的搜索和评分时间大幅缩短,模型参数的分布式学习过程得到了明显加速。
  (4)提出了一种高维数据下分布式社区检测性能的优化方法。设计了两个高效的列联表数据结构,即链式列联表和哈希列联表,通过分别使用一维数组和哈希表以记录条件概率,简化了列联表的结构,从而减少了从高维数据创建和索引列联表的时间;提出了列联表快速构造算法,可避免列联表构造过程中的递归调用,为解决使用非递归方式从稀疏ADtree中恢复MCV节点的问题提供了一种有效的方法,从而可大幅缩短列联表的构造时间。使用大量的随机数据集和真实数据集进行了综合的性能对比实验,实验结果表明,从高维数据构造链式列联表和哈希列联表的时间均比现有方法更短,并且FCTC算法可使概率图评分函数的计算过程进一步加速。
其他文献
肝再生磷酸酶(PRL)家族基因在多种癌症中上调表达并与癌症的发生发展密切相关。然而PRL磷酸酶的细胞生物学生理功能以及分子机制仍不清楚。在本课题研究中,我们利用果蝇这一模式生物来研究PRL同源基因的生物学功能。  构建突变体是研究基因功能的常用方法,我们首先采用CRISPR/Cas9基因编辑技术制备prl-1基因的等位突变果蝇株。我们发现敲除prl-1基因并不影响果蝇的正常发育过程以及个体形态变化
兔子在进化上与人和小鼠都非常近,它们都属于灵长总目,而兔子是兔形目中的典型代表。通过对兔子精子发生过程中小RNA的研究,有利于找出兔子与人类的异同点,为以后的将兔子作为生殖方面的疾病模型做基础。现在关于兔子精子发生过程中小RNA的表达情况还不清楚,本研究通过对兔子不同发育时期的睾丸中的小RNA进行研究,增加对兔子精子发生过程小RNA表达情况的认识。在精子发生过程中,microRNA(miRNA)和
学位
目的:  原发性肺癌是临床上发病率和死亡率最高的恶性肿瘤之一,临床上80%以上的肺癌患者经确诊为非小细胞肺癌(NSCLC)。肺癌患者死亡率高的重要原因之一是大多数肺癌患者确诊时已进入中晚期,失去了手术治疗的机会。尽管目前在NSCLC临床治疗中的应用已取得了很大进展,包括放疗、化疗和手术治疗,但NSCLC患者的5年生存率仍普遍较低。因此,寻找新的诊断和预后指标,对区分不同患者的临床疗效和进一步个体化
葡萄糖是生物体内最主要的碳骨架和能量来源,它是直接进入糖酵解的最简单的碳水化合物。细胞在吸收和代谢葡萄糖的过程中,需要不断地维持细胞内糖流量的稳态。硫还原蛋白结合蛋白(Txnip)是细胞调节葡萄糖的吸收和代谢的重要蛋白。Txnip蛋白在细胞内具有多种功能,除了能够与硫还原蛋白形成两个分子内二硫键,调节细胞的氧化还原水平,还具有调节糖类代谢和脂类代谢的功能,最近还有研究表明,Txnip与糖转运蛋白数
学位
酶产自生物,具有生物相容性。许多酶已在不同行业中用作生物催化剂,如用在食品、乳品、制药、洗涤剂、纺织品、生物能源和化妆品等行业。在这些酶中,脂肪酶受到越来越多的关注,因为脂肪酶具有对映选择性、区域选择性和广泛的底物特异性,其具有应用于多领域的潜能。但是,尽管其优点较多,在实际使用中脂肪酶也存在易失活、不易回收、且价格较昂贵等缺点。固定化是解决脂肪酶上述问题的有效方案之一。近期,人们探索了以金属有机
学位
研究背景:  血管平滑肌不仅参与胚胎血管发育时期血管壁的形成,还参与成熟血管损伤后的血管重构,在血管生理和病理条件下发挥重要功能。血管在胚胎发育阶段,首先由内皮细胞形成管腔状结构,之后内皮细胞通过招募平滑肌细胞包裹在其外面形成具有多层细胞的血管中膜,平滑肌细胞功能的正确维持在这个过程中起着关键作用。在成熟血管中,由于平滑肌细胞具有高度可塑性,血管受损后能够从分化型细胞转变为增殖型细胞,发生过度增殖
艰难梭菌(Clostridium difficile),革兰氏阳性厌氧芽孢杆菌,是抗生素引起的感染型腹泻的主要原因之一。当肠道微生物菌群平衡被扰乱,艰难梭菌大量繁殖,过度生长,成为肠道的主要菌群,即会引发艰难梭菌感染(Clostridium difficile infection,CDI),导致肠表皮细胞黏膜坏死和肠上皮细胞凋亡,黏膜通透性增加,最终造成严重腹泻和肠道炎症发生。近年来,由于抗生素严
学位
Neuroligins(NLs)蛋白是一类在神经元突触后膜分布集中的细胞黏着蛋白,在突触的形成和传递中发挥重要作用。NL3是NL蛋白家族的一员,其基因异常和自闭症有关。在啮齿类动物的大量研究中,NL3基因的突变或缺失会引起小鼠的社交障碍、运动增多等,但其分子机制仍不清楚。本研究拟从信号通路着手,探究NL3异常引起自闭症行为的分子机制。  哺乳动物雷帕霉素靶蛋白(mTOR)信号通路在细胞中调控蛋白翻
学位
Ti3AlC2陶瓷是近年来发展起来的一种新型陶瓷材料,因其兼具陶瓷和金属的优异性能,在机械、能源、航空、电子和化工等领域具有广泛的应用前景。本文首次采用无焊料电弧焊接的方法进行了Ti3AlC2陶瓷材料与Cu(Mg)合金的焊接研究,证实了焊接方法的可行性,揭示了接头的组织结构和性能与焊接工艺之间的关系,探讨了电弧加热过程中焊接工艺参数对焊接母材内温度场的影响规律,这些研究工作及成果将为大尺寸、复杂形
学位
在能源危机和环境保护的双重压力下,人们对柴油机的性能和排放的要求也越来越高,而柴油机燃烧过程的好坏对其性能及排放有着至关重要的影响。数值模拟方法具有成本低、周期短、信息量大和便于优化等特点。广泛地应用于柴油机的燃烧过程的研究。鉴于此,论文通过三维数值模拟的方法对某增压中冷柴油机燃烧过程进行了数值分析,并对其碳烟和NOx排放进行了初步的研究。本文采用CFD(Computational Fluid D