论文部分内容阅读
网络是对现实系统中的主体及其关系的一种抽象表达,例如计算机形成的互联网络、人与人形成的社会网络等。由于网络在结构上继承了现实系统的复杂性属性,对网络进行研究,有助于人们理解现实系统的真实情况。在各种网络属性中,社区结构是一种能够反映网络特征的重要中观属性。如何高效地识别和划分网络中的社区结构,对分析复杂网络和预测网络发展趋势等具有重要的意义。此外,精确的社区划分还能够显著提高搜索引擎的结果相关度和推荐系统的精度,具有广泛的应用价值。 目前,研究学者们已经提出了多种复杂网络中的社区发现算法,然而划分网络社区结构还存在多种问题,如社区划分结果随机性较大、算法复杂度较高、准确率较低等。本论文针对静态网络和动态网络分别进行研究,将节点的间接关系引入到标签传播、矩阵分解和增量计算中,并提出相应的社区发现算法,以解决网络社区结构划分的随机性、精准性等问题。 论文的工作得到了国家自然科学基金课题“互联网用户偏好描述方法、形成机制与演化模式研究”(No.61271308)、“在线社交网络舆论传播演化模式及热点预测方法研究”(No.61172072),北京市自然科学基金资助项目“网络社区舆论趋势预测与观点演化机制研究”(No.4112045),和中央高校基本科研业务费专项资金研究生创新项目“在线大规模社交网络中社区发现算法研究”(No.2016YJS029)等项目的支持。 论文的主要工作和创新点如下: 1.研究了传统标签传播算法的中标签权重问题,提出了一种基于用户相似性的标签传播社区发现算法。传统的标签传播算法中节点只选取邻居用户中标签个数最多的标签,并且,认为用户标签的权重是相同的,缺乏对用户标签的个性化处理,影响了标签传播的全局性和准确性。本研究基于现实社会中用户间相似度不同的思想,引入了信息熵思想计算直接和间接邻居节点相似度,并将其作为标签传播过程中的重要因素,映射了真实的信息交互模式。研究发现在以信息熵度量影响力的情况下,标签传播算法能够有效地提高网络社区划分的精准度。 2.二分网络存在稀疏性特征,这种稀疏性对社区发现算法存在不利的影响。针对这一问题,提出了一种基于矩阵分解方法的社区发现算法。传统的矩阵分解模型使用同一目标函数对矩阵进行分解,没有考虑分解后的矩阵对应的物理意义,影响了社区发现的准确性。本论文针对分解后的两个矩阵的不同特性分别提出了相应的优化策略,使基矩阵更加趋近于正交状态,隶属度矩阵趋近于稀疏状态,以便更好地识别网络结构。并且,通过对原始网络预处理补充了节点的间接关系,此外,根据隶属度矩阵优化网络社区个数。通过数据分析结果表明,本文提出的算法能够有效划分社区结构,同时可以识别网络重叠社区及重叠节点,更有效地发现网络的潜在信息。 3.静态网络的社区结构划分往往忽略了网络的动态性,难以识别动态网络中的社区结构变化。为此,本文分析了动态网络中的变量对社区结构的影响,提出了一种基于增量的动态网络社区发现算法。该算法分别考虑了变化的节点对其所在社区的直接影响和间接影响,同时引入了间接节点间的相互关系,进一步扩展了变量节点的影响范围。实验结果表明,该算法较之传统动态网络社区发现算法具有更好的性能、更少的运行时间,相比传统的增量型算法,该算法可以得到准确度更高的社区结构。 4.针对大规模网络的数据特点,建立了一种基于用户影响力的大数据网络社区发现模型,提出了一种结合同步异步更新的并行化标签传播方式,避免了高时耗和标签振荡现象的发生。利用改进的Jaccard算法,计算直接和间接节点的影响力,更准确地表示用户信息交互的真实情况,拓宽了标签的传播范围,有助于提升标签传播的全局性。分析结果表明,本文提出的算法在平均耗时与精确度的综合分析上具有明显的优势和更高的适应性。