论文部分内容阅读
社区发现是数据挖掘的基础,通过社区发现可以了解节点在网络中的重要程度和不同关联节点,同时可以挖掘网络内部不同的节点信息,引导后续的网络推荐推荐系统以及预测网络的未来走向趋势。现有的社区发现算法的大多适用环境都是同构信息网络,因为同构信息网络节点关系单一,从直观上可以进行描述,方便理解。然而,随着网络的发展,现有的信息网络大多包含有多种类型的节点及链接关系,不同节点之间的链接关系可能代表着不同的语义信息,同一条链接关系也可能拥有不同的表述含义,我们将这种类型的信息网络称之为异构信息网络。异构信息网络对于节点的信息表达更加全面、精确,但是相对于以同构网络结构来进行社区发现将面临更多的困难与挑战。本文在借鉴现有研究成果的基础上,提出了一种适用于现有的异构信息网络的社区发现算法框架HCD_Clus(Heterogeneous Community Detection Cluster)。算法框架HCD_Clus主要包含两个部分:融合多条元路径的异构网络相似性度量算法HCBOWSMVA(Heterogeneous Continuous Bag of Words-Similarity Measure Vector Autotropism)和基于种子节点聚类的社区发现聚类算法NS-Clus(New Similarity Clus)。HCBOW-SMVA算法是一种可应用于异构信息网络的相似性度量算法,算法对CBOW进行了改进,以元路径信息作为输入实例,获取节点向量以及元路径权重,再根据节点自身的向量属性获取节点间的相似度,融合多条元路径得到最终的相似性度量结果。NS-Clus算法首先通过节点重要度以及二阶邻居来共同进行了种子节点的选取,利用模块度增量和基于HCBOW-SMVA算法所得到的节点间的相似性进行了种子节点的社区初始化分和非种子节点的聚类,得到了最终的社区个数;其次利用节点属于社区的可能性,即隶属度的概念来将剩余的非种子节点加入社区;最后通过社区重构,利用改进后的标签传递算法的思想来优化社区,同时发现社区中可能存在的重叠节点。本文的实验环境主要是学术网络DBLP和ACM数据集,这两个数据集是典型的异构网络数据集,在相似性指标验证阶段采用AUC和precision以及NMI作为评价标准,将本文提出的异构信息网络相似性指标(HCBOW-SMVA)与传统相似性指标进行比较,验证其有效性,实验结果表明,算法在Top-k的查询、相似性的准确度验证和聚类结果的有效性验证三个方面都表现良好,说明本文算法对于异构信息网络相似性度量是可行的、有效的且准确性较好;聚类算法NS-Clus与社区发现中的一些经典算法来进行对比,在归一化互信息NMI以及模块度Q来进行度量评价,实验结果表明了不论是在聚类精度上还是所得到社区的结构强度上,本文提出的NS-Clus算法都准确率更高,社区结构更稳定,性能更好,同时,该算法也能有效的发现社区中所隐藏的重叠节点。