论文部分内容阅读
随着网络社交形式的不断丰富,人们频繁进行信息的交互,产生大量的网络数据,形成规模巨大、信息丰富的社会网络。近年来社会网络的数据呈现爆炸性增长,如何从日益复杂的社会网络中挖掘出有价值的数据,并利用这些数据在日常生产、生活中发挥更大作用显得越来越重要。在社会网络众多的特性中,社区结构是一个重要的特性。社会网络中的社区分为非重叠社区和重叠社区两类。非重叠社区中的节点只能属于某一个社区,而在重叠社区中,节点可以同时隶属于多个社区。与非重叠社区相比,重叠社区更贴近社会网络的实际情况。重叠社区的挖掘对于理解网络的功能,预测网络行为更具有现实意义。但是,目前常见的重叠社区挖掘算法在面临大数据环境时,往往出现算法复杂度较高或未能对网络中的多维数据进行融合等现象,导致所挖掘出的社区质量较低或挖掘耗时较长等问题。本文以社会网络为研究对象,以复杂网络理论为基础,采用数学建模、算法设计以及数据验证等相结合的方法对社会网络的社区挖掘进行深入研究,并取得如下成果:(1)针对以往利用模块度作为单一优化目标进行解决重叠社区挖掘时,由于模块度函数自身的局限性,无法保证算法得到高质量的社区的问题。本文在研究已有的社区结构评价指标的基础上,选取社区适应度和社区的最小最大划分值作为目标函数,利用多目标优化方法对社会网络进行社区挖掘,算法挖掘出的社区不仅满足社区内部连接紧密的特性,而且满足社区之间联系稀疏的特性。为了进一步挖掘出更贴近现实的重叠社区,选取适合重叠社区性质的区密度和网络边度数作为目标函数,提出了挖掘重叠社区的多目标优化算法,实验表明该算法所发现的重叠社区具有较高的模块度。(2)由于标签传播算法的不稳定性,直接将标签传播算法用于重叠社区挖掘,会出现每次社区挖掘结果差异较大问题。为了提高标签传播算法的稳定性,提出了一种稳定的基于标签传播的重叠社区挖掘算法,该算法通过设定标签传播顺序、更改标签更新策略等方法,在保持较低的算法复杂度的同时,提高了算法的稳定性。为了进一步对加权网络进行重叠社区挖掘,将节点之间的影响因子作为标签传播依据,设计了针对加权网络的基于标签传播的重叠社区挖掘算法,该算法一方面提高了标签传播算法的稳定性,另一方面也适合对加权网络进行重叠社区挖掘,效果较好。(3)为了研究出既适合无权网络又适合加权网络的社区挖掘算法,将物理学中的万有引力原理引入到重叠社区挖掘中,提出了基于引力因子的加权网络社区挖掘算法。算法首先给出引力因子的概念,并根据引力因子大小判断节点之间以及节点与社区之间联系的强弱,从而判断节点所属的社区。算法通过加权网络的评价指标进行评价,综合考虑了无权网络和加权网络的特点。(4)针对微博网络的数据稀疏性问题,提出了基于语义模型的重叠社区挖掘算法。首先将微博网络中节点的内容信息与微博网络中用户的关系融合,建立了微博网络的RT模型,将微博网络映射为有向加权网络。为了充分利用微博网络的语义信息,分别提出了针对微博网络进行主题挖掘的静态模型和动态模型,挖掘出微博中用户的兴趣,进而计算微博网络中用户之间兴趣的相似度。在此基础上利用标签传播算法针对微博网络进行重叠社区挖掘。实验结果表明,该算法所挖掘出的社区更具有语义内聚性。本文的研究成果,对于提高社区挖掘的质量,降低社区挖掘算法复杂度,解决社会网络数据稀疏性所带来的社区质量低等问题具有重要意义。