论文部分内容阅读
网络数据的形式可以有效的表达多种类型的节点和边之间的联系,在我们日常生活中很常见。例如互联网中网页组成的网络捕获了网页之间的链接关系;微博,今日头条等社交网络捕获了人与人之间的社交关系。由此产生了一种很重要的信息载体——异质信息网络。异质信息网络是信息的重要表达形式,相比被广泛研究的同质网络,异质网中的节点和边包含了丰富的结构和语义信息,因此针对异质信息网络的科学研究也越来越多,同时也为数据挖掘领域的研究提出了新的挑战。聚类分析作为数据挖掘的重要研究手段,可以发现数据潜在的组织结构。在异质网中直接进行聚类分析相比于转化为同质网络再进行聚类分析具有很明显的优势:首先异质网具有广泛的信息融合功能,可以使不同类型节点的聚类结果相互促进。其次直接对异质网进行聚类可以减少语义信息或结构信息的丢失,使聚类结果更准确。然而,目前存在的异质信息网络聚类算法普遍存在一些缺点。第一,可迁移能力弱,不能对任意的异质信息网络适用。第二,仅仅使用边的信息聚类或仅仅使用内容进行聚类,没有将两者统一起来。然而仅仅针对关系进行聚类或仅仅针对内容进行聚类都是不全面的,很难达到理想的聚类效果。第三,没有利用同种类型节点的相似性信息,使聚类结果不够平滑。针对以上提到的异质网聚类问题中存在的不足,本文提出了基于元路径的异质网协同聚类算法R-Net NMTF算法。R-NetNMTF算法和已有算法相比具有如下优势:首先,R-NetNMTF算法将异质信息网络组织成星型网络结构,由中心类型节点为轴连接着从属类型节点,基于多条元路径将半结构化的异质信息网络进行结构化表示。由于任何一个异质信息网络都可以组织为星型结构,因此本文R-NetNMTF算法具有很强的迁移能力。其次,通过整合不同类型节点之间的链接关系和生成的内容信息,将边和内容有效的结合起来协调聚类结果,对多个非负数据矩阵同时使用非负矩阵三因子分解算法,实现了异质网中所有类型节点的协同软聚类。R-NetNMTF算法得到的聚类因子指示矩阵中的元素值为节点所属类簇的强度,相较于硬聚类算法的结果,R-NetNMTF算法既可以体现出节点的聚类结果,又可以体现节点所属类簇的模糊性,使得原本就不具有明显聚类界限的聚类结果更具有可解释性。最后R-NetNMTF算法利用同种类型节点的相似性正则化内容,以从属类型节点所连接的中心类型节点作为度量标准,优化数据空间的几何信息,增强了异质网全局聚类结果的平滑性。在真实数据集上的实验结果显示了本文算法R-Net NMTF的有效性和正确性,并且聚类结果优于已有的相似聚类算法。