论文部分内容阅读
社交网络中包含了实体之间的相互联系,对这些联系进行分析,可以提取出网络的组成模式以及演变规律。但是社交网络往往规模大,结构复杂,而且实体间的联系还会随着时间变化,所以如何对社交网络进行分析,从中挖掘有效信息并进行展示是一项有意义且具有挑战的研究。聚类是一种解决网络数据规模过大问题的有效方式,但是聚类过程中会存在簇数难以确定、聚类结果不稳定的问题。为了使聚类簇数尽量准确,我们基于现有聚类算法DCN(Community Detection based on Centers and Neighbors),提出了层次可视化辅助方式解决聚类中簇数丢失的问题,并且对DCN算法中多策略标签传递算法进行改进,解决聚类结果不稳定的问题。此外大规模网络相比用于实验分析的网络数据集具有一些特殊结构。由于大规模网络往往不是强连通图,还会存在大量内部联系紧密的孤立团结构,这些结构中节点数量少,在传统的聚类分析中易被忽略。因此在聚类过程中不仅需要对较大的连通图进行分析,还需要对这些孤立团进行检测,使得聚类后的结果能表现网络的整体分布情况。为了使用户参与聚类分析并对网络及其动态变化进行探索,论文设计了面向社交网络的静态和动态可视化方式,在此基础上实现了基于Web的面向社交网络聚类分析的可视分析系统,利用豆瓣电影数据提取的影人合作网络进行相关案例分析,验证了系统的实用性。论文的主要工作如下:(1)可视化辅助的聚类算法:为了解决已有聚类算法DCN中存在的中心点遗漏,标签传递结果不稳定的问题,本文提出可视化辅助的方式使用户识别潜在的社区中心点,参与聚类过程,并提出基于重要度的标签传递算法。为了降低在簇数较多的网络中用户检测潜在中心点的难度,本文融合层次聚类思想,使用户迭代识别潜在中心点。(2)大规模网络数据的聚类分析:为了检测大规模网络中大量存在的孤立团结构,本文通过分析密度极大值节点的1阶邻居情况,识别孤立团结构。为了检测大规模网络中的局部中心点,本文在标签传递过程中将无法分配标签的节点视为中心点,并基于更新后的中心点列表重新进行标签传递。(3)面向静态和动态社交网络的可视分析:为了向用户展示网络的静态结构和时间演变性,本文设计了用于展示不同层次的可视化视图。并且本文设计了原型系统,使用户能参与网络的聚类分析与可视探索。