论文部分内容阅读
近年来,随着互联网技术的飞速发展,各类社交网络应运而生。用户之间的交互行为会产生海量的数据信息,这些信息在市场营销、广告投放、信息推荐和舆情监控等方面具有极大的研究价值,为社交网络分析带来了新的机遇与挑战。其中影响力最大化的研究已经成为社交网络一个新的研究热点,其目的是在特定传播模型下挖掘最具影响力的核心节点集合,使得通过该集合传播的信息能够在社交网络中得到最大范围的扩散。社区划分是大规模社交网络的主要处理方法。在社区划分的基础上,为了更客观地体现真实网络的结构,大多数工作更偏向于重叠社区的研究。然而,现有的重叠社区划分算法存在生成结果不稳定的问题。除此之外,由于没有充分考虑重叠节点对信息传播过程的影响,基于这类算法的影响最大化方案得到的节点集合的传播范围相对较小。为了综合考虑真实的社交网络结构,并提高影响力最大化算法的准确性,本文提出了一种面向重叠社区的划分算法以及一种基于重叠社区的影响力最大化算法。本文的主要内容如下:(1)针对COPRA算法采用随机顺序策略导致的传播过程不确定、社区划分结果不稳定且生成社区质量不够高等问题,本文以COPRA算法框架为基础,提出了基于节点综合相似度的多标签传播社区划分算法(MLPA-NCS)。首先,该算法以用户节点潜在影响力的降序作为节点更新顺序,解决了由于随机选取节点更新顺序所造成的社区结果划分不稳定的问题。然后,算法用节点综合相似度作为更新节点标签时对邻近节点遍历的顺序,能够充分考虑节点之间潜藏的主题相似因素和链接关系,可以避免因随机策略更新标签带来的不稳定问题,并提高生成社区的质量。最后,实验结果表明,提出的MLPA-NCS算法的NMI和Qov指标都优于COPRA以及同类社区划分算法,本算法的社区划分结果是稳定合理且具有较高质量保证的。(2)针对基于重叠社区的影响力最大化问题,在上述MLPA-NCS划分的重叠社区的基础上,提出了基于重叠因子的核覆盖算法(OFCCA)与信息传播模型(NICM)。基于核覆盖算法CCA框架的OFCCA算法,在考虑重叠因子对信息传播的影响的前提下,筛选候选节点集合,从而提高了所筛选候选节点的质量。NICM模型能够根据节点亲密度、节点主题相似性和信息接受度计算节点激活概率。利用该模型模拟信息传播过程,提高了目标核心节点集合的质量。实验结果表明,OFCCA算法和NICM模型在重叠社区中挖掘的目标核心节点集合影响范围和时间效率都具有优势。