论文部分内容阅读
在实际应用中信息网络随处可见,例如社交媒体网络、电子商务网络、生物信息网络、健康医疗信息系统、以及大量的结构化数据库系统等等。如何从信息网络中挖掘出有用的知识是一项意义重大且充满挑战的任务。在最近的十几年里,信息网络的挖掘俨然成为了数据挖掘和信息检索领域的一个新的研究热点。最初的信息网络挖掘基本上都是将传统的数据挖掘方法扩展到同构信息网络中,即假设信息网络中只包含一种类型的对象,且对象之间只存在一种类型的链接。然而,在实际情况中,信息网络基本上都是异构的,即网络中包含多种类型的对象,且对象之间可能存在多种类型的链接关系。聚类分析是数据挖掘中的一种最常见的无监督学习方法,也是机器学习和人工智能领域的一项基本数据分析手段。聚类分析主要用于无标签数据的自动分类问题,聚类分析能够有效地发现海量数据中隐含的数据模式和结构特征。然而,许多现有的聚类方法,如谱聚类等,都是为了离散点集或只包含一种关系的同构信息网络而设计的。对于异构信息网络中包含的多种类型的对象和丰富的语义关系,必须经过投影转换等手段将异构信息网络转换为同构信息网络才能处理。这种转换忽视了对象和链接类型之间的相关性,一般都会导致异构信息网络中的语义信息的丢失或者网络结构的损坏。由于传统聚类方法的局限性,最近的一些研究开始关注于异构信息网络的挖掘并取得了一些成就,例如RankClus和NetClus。虽然这些研究在一定程度上克服了传统方法在处理异构信息网络时不可避免地造成语义信息丢失和网络结构不完整等问题,但是由于各种要求严格的使用条件和强假设条件,使得目前关于异构信息网络挖掘方法的使用也面临着很大的局限性。例如RankClus要求异构信息网络符合二元网络模式,而NetClus只能分析星型网络模式的异构信息网络,并且这些方法每次只能对网络中的一种类型的对象进行聚类分析。然而,在实际情况中,一般很难遇到这些具有完美的网络模式的异构信息网络。本文针对传统经典的聚类方法对异构信息网络分析的局限性和目前关于异构信息网络的聚类方法的不足,基于张量分解工具对异构信息网络的聚类问题进行研究。提出了基于张量的异构信息网络建模方法、一般网络模式的异构信息网络聚类模型、稀疏性约束下的异构信息网络聚类模型、动态异构信息网络中的混合多类型社团发现模型。论文的主要研究内容及创新点包括:1.结合异构信息网络挖掘的研究现状,分析了异构信息网络的聚类所面临的挑战,提出了一种异构信息网络张量表示模型,能够描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况,同时利用稀疏张量来压缩异构信息网络的存储规模等。2.提出了基于张量分解的一般网络模式的异构信息网络聚类框架,并设计了稀疏张量分解算法。该聚类框架不受具体的网络模式限制,不需要定义对象之间的距离函数,并且一次运行可以同时得到异构信息网络中多种类型对象的聚类结果。3.提出了两种高效的随机张量梯度下降算法,利用张量的稀疏性进行加速计算,较好地解决了异构信息网络聚类结果中特征矩阵的稀疏性约束问题。4.设计了动态异构信息网络中混合多类型社团发现模型。根据动态异构信息网络中混合多类型社团的特点,利用秩一张量对混合多类型社团进行建模,并提出了动态异构信息网络中混合多类型社团数量自适应学习的方法,较好地解决了异构信息网络中混合多类型社团的发现问题。