论文部分内容阅读
随着网络科学技术的蓬勃发展,以及移动智能终端设备的普及,社交网络已经改变了人们传统的沟通与协作方式,打破了人际交往的时空界限,扩大了人与人之间的交往范围,极大满足了人们的情感沟通需求,甚至在很大程度上改变人们对自我和社会的认知。为了更加有效地分析和利用社交网络数据,面向社交网络的数据挖掘技术应运而生。社交网络中重叠社区影响力传播与演化追踪技术研究是网络安全工作的一项重点,是社交网络数据挖掘的研究热点。它是通过对社交网络庞大的用户群和大量实时数据进行分析,能够准确挖掘用户的潜在影响力,精准探测动态网络中复杂多样的社区结构并有效地动态解析社交网络信息,高效准确的实现用户兴趣社区发现,精确刻画出社区的整个生命轨迹,并准确预测符合用户兴趣的内容。同时,用户影响力识别、社区影响力最大化、重叠社区识别以及演化预测都是社交网络中重叠社区影响力传播与演化追踪技术研究的关键组成部分,其性能的好坏也对社交网络中重叠社区影响力传播与演化追踪技术的整体性能有着至关重要的影响。因此,开展用户影响力识别、社区影响力最大化、重叠社区识别以及演化预测研究具有重大的理论意义和实用价值。本文首先深入研究社交网络相关的理论知识与关键技术,同时结合近年来国内外该领域的研究现状,分析出目前研究中亟待解决的关键问题。然后在此基础上借鉴已有的研究成果,对社交网络中用户影响力传播、社区影响力最大化、重叠社区识别以及演化预测进行了创新性的研究和探索。具体的研究内容如下:(1)针对社交网络数据具有文本简短、语言不规范,含有大量噪声数据,并且很容易受到数据稀疏性和兴趣漂移的影响,导致用户兴趣挖掘及社区发现的效率和准确率较低的问题,本文提出了一种基于兴趣驱动的重叠网络影响力传播模型。首先,考虑到重叠网络节点的信息传输特性和用户的偏好特性,通过重叠网络用户的“桥梁”角色进行网络耦合,以识别用户所在的重叠网络。其次,基于独立级联模型IC,提出了一种基于用户主题偏好的重叠网络影响力最大化模型UI-IPM。接着,基于UI-IPM,提出了一种最大化重叠网络影响的两阶段种子节点挖掘算法IMON,在启发式阶段,利用节点的中心度来初步筛选候选节点,以大大提高效率。在贪心阶段,根据子模块的特点对贪心算法进行优化,以进一步高效准确挖掘种子节点。最后,通过实验验证UI-IPM模型在影响范围和时间效率方面的有效性,以及IMON算法在重叠网络环境下挖掘种子节点的高效性。(2)针对现有影响力模型由于忽略种子节点的多样性、社区传播的多主题和用户偏好的多样性而导致社区传播效率和准确性均不高问题,本文提出了一种基于多主题学习的独立级联模型MTL-IC和一种基于相似优先级机制的兴趣社区演化模型SPM-EE。首先,传统的信息传播模型通过融入多主题学习因素,并考虑用户兴趣的权威度和中心度,设计了一种基于多主题学习的独立级联模型。然后,根据种子用户兴趣变化动态更新种子用户,以提高多主题信息传播时的准确率和覆盖范围,同时设计了一种基于相似优先级机制的社区演化模型,以实时追踪用户兴趣的演变过程。最后,通过实验验证两种模型在动态社区影响力最大化和多主题社区演化方面的有效性。(3)针对传统基于节点邻域的社区发现算法无法有效发现社交网络重叠社区问题,本文提出了一种动态重叠社区发现与演化预测模型OCDEP。首先,该模型以扩展的标签传播算法LPA(即LPAE算法)为语义信息模型,将社交网络划分为用户社区,并将用户社区看作社区演化的搜索范围。然后,基于LPAE社区发现结果,提出了一种基于用户兴趣行为的重叠社区演化预测算法UIBEP,UIBEP通过计算社区中未链接节点的兴趣相似度,以实现快速准确的重叠社区演化。再将每个社区的社区演化结果聚合成一个集合,并将该集合作为整个社交网络的重叠社区演化结果。最后,通过实验验证两种模型在重叠社区演化预测方面的有效性。(4)针对现有链接预测方法因未综合考虑社区特征、文本信息和增长机制等重要信息而导致预测精度偏低问题,本文提出了一种基于社区发现与组合推荐算法的用户行为偏好预测模型UBP。首先,从社区发现的源头提高数据质量,以提高现有链接预测算法的预测精度。其次,考虑到网络结构属性和用户兴趣爱好等重要因素对链接预测的影响,提出了一种基于改进型多源标签传播社区发现算法MSLPA,以进一步优化社区结构、减少社区冗余、改进预测过程。再次,通过融合链接预测和标签传播社区发现算法设计一种朋友推荐模型。最后,通过实验验证所提模型在动态社区追踪和链接预测方面的有效性。