基于社区结构的集体预测算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lsh19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生活中的方方面面都暗示着我们每天生活在一个由各种各样的复杂网络交织在一起的世界中,社交网络、快递网络、电信网络、病毒传播网络,这些网络无时无刻地在影响着人们的生活与工作。网络中的每个节点不停地与其他节点进行互动,产生相互影响。对复杂网络相关问题进行有效的研究对于政治、教育、经济、文化等各个方面具有重要意义。复杂网络具有社区结构特性,社区内部边密度大,而社区之间边密度较小。此外,处在同一个社区内的节点往往具有某些属性的相似性。如何进一步有效地利用得到的网络社区结构来预测节点的属性,对于商品推荐、好友预测、主题检测、政治宣传、病毒监控具有重要意义。本文主要针对大规模复杂网络的社区发现和利用网络结构特征进行集体预测若干问题进行研究。论文的主要工作及创新点包括:  1.本文中我们研究了复杂网络学科中一个重要的研究分支-社区发现。我们以大规模复杂网络上的社区发现为目的,提出两种策略不同但复杂度都很低的社区发现算法。在人工和实际网络上的实验表明我们提出的算法都优于其他社区发现算法,这极大地提高了社区发现在实际工程中的应用范围。我们还将复杂网络学科的相关知识与机器学习中的预测算法相结合,在预测过程中使用网络结构特征。这不仅提高了预测的准确率,也极大地扩展了复杂网络学科的应用范围,使复杂网络学科更具有实际意义。  2.我们借鉴复杂网络中的社区局部分布特点和“帕累托效应”,提出一种基于种子节点扩张的局部社区发现算法,该算法复杂度低,可应用于大规模网络。算法中我们使用改进的PageRank算法选取核心节点作为种子节点;在局部扩张中,传统模块度具有分辨率受限问题,针对此问题我们给出基于Potts spin-glass模型的解决方案,使用Hamiltonian函数作为多分辨率模块度进行局部社区扩张,迭代地发现局部社区结构。我们提出的基于种子节点扩张的局部社区发现算法可以在大规模网络上应用,得益于时间复杂度较低的优点,尤其是在稀疏网络上其时间复杂度接近线性。实验验证中,我们在计算机生成的GN网络以及LFR人工基线网络上进行实验,在NMI和模块度指标下,发现算法通过参数调整可以有效调节网络划分的社区规模且该参数对算法具有很强的鲁棒性,基于种子节点扩张的局部社区发现算法相比于其余社区发现算法具有更高的准确率;在中小规模和大规模真实网络上进行实验,基于种子节点扩张的局部社区发现算法都具有更好的社区划分效果,并且该算法运行时间更短。  3.我们提出一种基于多维距离的标签传播社区发现算法,该算法不使用特定目标优化函数,而是借鉴网络的影响力传播模型和网络动力学过程来揭示网络的结构属性,进而发现社区结构。这种算法的优点在于不需要预先知道社区的规模与数量,无额外的参数,仅根据网络的自身结构信息发现社区,该算法具有很低的接近线性的时间复杂度。我们的算法可以有效地解决传统标签传播算法中节点间标签传播过程中只考虑原始边的权值而不能全面描述节点间距离和算法结果不稳定问题。我们使用Jaccard系数来定义节点间的相似性进而利用该相似性从三个方面考虑节点之间的距离,使该距离更加全面地描述节点之间的标签转移概率。我们提出使用标签向量来表示节点对每个标签的选择概率系数以解决标签传播算法结果不稳定的问题。我们在LFR仿真数据和多个已知社区结构的数据集上进行实验,以NMI和模块度作为评价指标,与其他社区发现算法进行算法比较,发现我们的算法在NMI指标下性能明显优于其他算法,而由于模块度函数定义具有缺陷性,我们的算法在模块度指标下与其他算法相当。  4.复杂网络作为一个动态系统,网络中个体的思想和行为相互地影响与联系。对网络中节点的一些属性标签进行预测具有重要意义。针对传统的预测过程中样本与样本之间是统计上独立的不合理假设,我们提出基于社区结构的集体预测算法。在预测过程中不仅仅考虑节点自身属性特征,还将网络的结构特征考虑进来,以弥补样本独立假设造成的信息缺失。我们还以实际举例和定量计算的方式验证了我们提出算法的可行性。最后,在实验阶段,我们使用三种数据集,与不使用网络结构的经典预测算法和传统的集体预测算法进行对比。实验结果表明,在不同数据集上,我们提出的基于社区结构的集体预测CPC算法在算法性能上优于其他两种算法,尤其是在训练集比例较小时,CPC算法提升更加明显。
其他文献
目的:研究舒适护理措施在高血压护理中的应用效果.方法:选取2018年9月-2019年9月医院收治的高血压患者96例,随机分为对照组和观察组,每组48例.对照组采用常规护理措施,观察组
目的:探讨颈腰椎间盘突出患者的针灸治疗中心理护理的方法与效果.方法:抽选我院在2018年3月-2019年10月间开展针灸治疗的颈腰椎间盘突出患者(80例)开展研究,单双号法分成乙组
药用植物附子(Aconitum carmichaeli Debx.)为研究材料,通过盆栽实验对不同土壤水分条件下附子耗水规律、生长发育、生理特性及有效成分积累等进行了系统地研究,初步建立了附子规范化生产的灌排水制度,为附子规范化生产中的田间水分管理提供理论依据和技术规范的制定提供指导。主要研究结果如下:1.附子的耗水特征随着土壤水分的增加,附子的耗水量逐渐增大,从3月18日~6月20日,在供水分别
目的:探讨和分析中药保守治疗肠梗阻的治疗和护理效果.方法:以2018年7月2019年6月我院收治的82例肠梗阻患者为对象展开研究;以随机的方法将患者分成各41例的参考组与研究组,
目的:分析肠内营养规范化护理在重症医学科危重患者中的应用效果.方法:本院于2017年9月至2018年9月诊治的重症医学科的危重患者90例,通过随机的方式将其分成实验组和参照组,
摘要:在高中数学学习过程中,导数的学习起着承上启下的作用,所以高中数学的导数教学对于学生学好数学起着至关重要的作用。导数教学的重点在于让学生能够在充分理解知识的基础上,利用学生自己所掌握的导数知识,解决在实际生活中遇到的问题。现在大多数学生死记硬背,硬套书本上的公式,对这样的情况高中数学导数教学要引起足够的重视,不能只是停留在口头上,而是要落实到实际的教学工作中,要使学生能够从根本上学好导数,从而
目的:分析研究无保护会阴接生在产房护理实践中的临床效果.方法:选取从2018年6月~2019年6月在该院接收的86例产妇做为研究对象,通过数字随机分组法将他们分为两组,观察组和对
目的:探究白内障手术患者采用健康教育护理干预的应用效果.方法:选取2018年4月-2019年7月笔者医院治疗白内障手术治疗的52例患者为研究对象,随机均分为对照组和观察组,分别行
本文根据2012年至2014年期间采自三门湾和乐清湾两个典型的浙江中南部沿岸海湾的浮游植物样品,分析了浙江中南部典型海湾浮游植物的物种多样性、丰度、分布和多样性指数及其与
近年来,全球金融衍生品交易的快速发展及美国次贷危机的爆发暴露出金融衍生品市场监管的缺陷和风险管理的不足。我国金融衍生品市场尚处于发展初期,如何构建有效的监管体系,