论文部分内容阅读
聚类的思想在人类的历史发展中始终存在。信息社会的到来,大量的数据信息需要处理,以便发现知识。信息的交流与传递,在现实生活中形成了许多复杂的网络,这些网络是由社区构成的。对这些网络社区的研究具有重要的意义。网络社区结构往往具有社区内节点联系紧密,社区间节点连接稀疏的特点,这是典型的聚类特征。因此,聚类的方法可以运用在复杂网络的社区检测中。经典聚类方法是针对特定的数据结构,不具备全局特性,谱聚类算法具有全局特性。本文在谱聚类算法研究的基础上,使用了一种新的构造相似度矩阵的方法,能够提取更多原始数据的特征,兼顾数据的局部特性。然后用基于熵的方法对特征向量进行选取。最后用这些特征向量所张成的空间聚类。提出了一种基于核与特征选择的谱聚类算法。并将其运用在复杂网络的社区检测中。具体工作如下:(1)在相似度矩阵构造上,以往的谱聚类算法是通过构造单一的相似度矩阵进行特征分解,而本文则是构造一组相似度矩阵来得到关于数据的更多信息。在以往研究的基础上分析了核k-means与谱聚类之间的关系,用相似度矩阵的拉普拉斯矩阵作为核矩阵,然后通过核选取的方法进行特征提取。同时把local scaling的思想用在了相似度矩阵的构造中来强化数据的局部特性。(2)在特征向量选取上,不是直接选取特征值大的特征向量,而是采取了一种基于熵的特征向量选取方法。首先,计算各个特征向量的熵,根据其对整体熵的影响程度,对其进行排序,选择那些对整体熵影响大的特征向量来聚类。(3)本文把上述提出的基于核与特征选取的谱聚类算法,运用到社区检测当中去。用邻接矩阵构造一组相似度矩阵,通过核选取的方法进行特征提取后,用基于熵的方法对特征向量进行选取,最后运用这些特征向量完成聚类。并在人工数据及真实数据集上进行测试。