论文部分内容阅读
聚类分析作为一种无监督学习方法,是机器学习领域重要的研究方向之一,已经成功应用到金融、商业、社交网络、生物信息学等领域。目前存在大量成熟有效的聚类算法,其中基于图论的谱聚类算法,具有能够划分任意形状数据、易于执行等优点,受到广泛的关注。然而,谱聚类算法的计算复杂度和空间开销比较大,对大规模数据集来说是难以承受的计算负担。另一方面,以互联网为代表的信息技术的快速发展,导致社交网络研究需求越来越迫切。利用聚类手段分析现实中的社交网络,已经成为一种重要有效的研究方法。本文研究谱聚类算法的可拓展性,并将改进的谱聚类算法应用到大规模社交网络的社区检测中,主要的研究内容包含以下四个方面:(1)针对多数谱聚类算法通常以距离决定数据之间的相似性导致聚类效率低的问题,提出了一种公理化模糊共享近邻自适应谱聚类算法。首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来构造更合适的相似度矩阵,然后采用共享近邻的方法根据每个点所处邻域的稠密程度自动调节尺度参数,进一步提高聚类准确率。仿真实验表明:相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,改进算法能取得更好的聚类效果。(2)针对谱聚类算法用于大规模数据集时存在计算复杂度过高的问题,提出了一种加权PageRank改进地标表示的自编码谱聚类算法。首先选取数据亲和图中权重最高的节点作为地标点,以选定的地标点与其他数据点之间的相似关系来逼近相似度矩阵作为叠加自动编码器的输入。然后采用基于KL散度的聚类误差来同时更新自编码器的参数和聚类中心,考虑重构误差减少嵌入表示空间失真对聚类造成的负面影响。实验结果表明,该算法能有效降低算法复杂度,较好适用于大规模数据集。(3)针对多数半监督谱聚类算法不能有效利用约束信息,仍需要对所有数据的拉普拉斯矩阵进行特征分解的问题,提出了一种基于不完全Cholesky分解的半监督谱聚类算法。首先使用不完全Cholesky分解思想选择相似矩阵中有限的列和行,使得相应的稀疏数据集很好地表示完整的数据集,获得近似相似度矩阵。然后使用近似相似度矩阵改进约束谱聚类的目标函数,提高半监督谱聚类算法的可扩展性。实验表明,改进算法相较于其他几种半监督谱聚类算法具有更好的聚类性能。(4)当前基于聚类算法的社交网络社区检测,仍然要进行矩阵分解,较高的复杂度难以用到大规模社交网络数据集。针对该问题,结合前面所提的改进谱聚类算法,将其应用到大规模社交网络的社区检测中。实验结果表明:所提算法用到大规模社交网络的社区检测中,在保证社区划分准确率的同时提高了社区划分的效率。