论文部分内容阅读
互联网的普及大大推动了社会信息的网络化进程。包括Web、博客、即时通信、P2P资源共享等各种信息网络迅速发展。对大规模信息网络的规律性特征发现、信息网络的建模、信息网络社区发现以及信息网络应用研究,例如高效率信息搜索与信息定位、信息内容的深度挖掘以及信息动态传播机制和信息扩散行为的分析等是信息网络研究的现实需求,也是极具挑战性的研究问题。本文在详细观察了Web网络的拓扑结构特征以及拓扑结构与内容分布相互关系的基础上,以信息网络的物理连接拓扑结构与节点内容相关度分布之间的相互关系为主线,从网络特征、网络建模、社区分析及相关应用方面问题进行了深入细致地探讨:首先在验证了前人提出的Web网络拓扑结构特征基础上,进一步发现了信息网络所具有的一些新特征:1)网络微观颗粒度的拓扑结构聚团与内容聚团存在明显的映射关系,具体包括节点之间的物理连边概率与节点之间的内容相关度成指数比例关系、节点形成三角形拓扑结构的概率与节点内容相关紧密程度之间同样具有一种指数比例关系;2)网络节点连接度整体分布与节点内容相关度整体分布是线性无关的;3)网络微观拓扑结构中的存在很强的集聚性(平均聚团系数很高)。其次,针对当前的Web网络模型无法解释拓扑结构与内容分布之间的映射关系,提出了一种融合节点知名度和节点相关度的Web网络演化模型(PRCP Model)。从模型的理论推导、演化学习验证以及大规模实验验证表明,该模型既能解释网络节点连接度的幂律分布规律,又能产生与真实网络相类似的微观拓扑集聚现象;而更重要的是,PRCP模型能够很好地拟合真实网络中存在的网络微观粒度拓扑聚团与内容聚团之间的映射关系。由此,我们可以进一步推测出信息网络中“微观层次的结构与内容构造规则共同决定了网络整体的物理结构和内容分布”这一规律性的结论。最后针对信息网络社区发现和社区关系分析的实际需求,分析了当前基于物理连边密度这种单一尺度社区研究的不足,提出了一种多尺度、概率化的信息社区概念。新的社区概念考虑了物理连边密度和节点之间属性相关度等多种尺度,以连边和消息转移概率来综合定义信息网络中的社区,并在此基础上提出了相应的社区发现算法。从而可以发现更有实际价值的信息网络社区结构。