论文部分内容阅读
异质关系数据(Heterogeneous Relational Data)(如社交网络,知识图谱,基因-蛋白质作用网络中的数据)正成为信息产业的主流数据形式以及大数据的重要构成部分,具有丰富的语义价值。异质关系数据一般指的是存在多于一种实体类型或一种以上关系类型的数据,其中的实体与关系往往构成不同类型的链接,进而形成复杂的依存模式。由于传统的机器学习方法大多假设数据独立同分布,因此以传统机器学习方法应对异质关系数据往往会造成严重的结构信息损失。 本文以协同因子化为主要研究方法,从信息表示,融合,分类,聚类,关系预测这几方面对异质关系数据进行了深入的研究。通过模型与算法研究以及实验验证,本文取得了一系列的研究成果。这些研究成果不仅为今后的异质关系数据模型与算法研究提供一定的借鉴意义,也将有助于不同领域中异质关系数据的具体分析和运用。论文的主要内容及创新点如下: 首先,借鉴现有方法以“异质信息网络(Heterogeneous Information Network)”来描述异质关系数据,以“元路径(Meta Path)”来刻画异质关系数据节点间链接的模式,本文提出一种在元路径特征层次上的结构信息(与属性信息联合)量化模块,以实现结构-属性信息在中层语义上的融合。具体地来说,我们提出一种通用的元路径权重计算方法,以及一种新的链接相似度度量方法,通过元路径加权、筛选,链接相似度计算、加权组合,最终生成加权结构-属性语义矩阵。该量化模块能够在特征层次上有效地融合异质关系数据的结构、属性以及(部分)标签信息,是后续章节进行异质关系数据分类、聚类的分析框架中不可或缺的组成部分。实验表明,与当下的方法相比,我们提出的元路径权重计算方法与链接相似度计算方法均具有优势。(第二章:异质关系数据的信息表示) 其次,由于异质关系数据普遍存在高度稀疏与维度灾难等问题,其数据模式统计显著性不明显。在这种情况下充分利用结构信息与属性信息,使得二者互补增强就显得非常必须。本文明确了“统计+结构”的理念,提出了一种有效解决异质关系数据分类和聚类的算法框架。该框架将结构信息与属性信息进行相互渗透式融合:从算法上说来,首先相关信息被融合生成加权结构-属性语义矩阵,紧接着从统一、融合的视角通过协同因子化对这些信息加以利用,最终得到符合分类和聚类任务的分布式表示。该框架按照以下方案实施: 1.针对异质关系数据的节点分类任务,提出了一种能够无缝融合结构信息与属性信息的协同矩阵分解模型,通过在加权语义矩阵中融合结构、属性和标签信息,并在流型约束下将加权语义矩阵与属性信息矩阵同步分解,得到具有高度表达能力的低维隐藏因子表示。(第三章:异质关系数据分类) 2.针对异质关系数据的节点聚类任务,提出了一种基于元路径的协同非负矩阵分解模型,在加权语义矩阵中融合结构、属性信息,并在双图拉普拉斯正则化与聚类指示矩阵的约束下,使得在优化的过程中,聚类目标的隐藏因子能够逐渐表达出聚类特性。(第四章:异质关系数据聚类) 最后,针对异质关系数据的链接预测任务,本文从以下方面进行了研究: 1.由于现实中许多异质关系数据实体的概念标签分层排列在树(Tree)或有向无环图(DAG)中,对这些实体与其概念标签之间进行“is-a”类型的链接预测,实质上等价于对这些实体进行层次化的多标签分类。本文采用偏最小二乘(PLS)技术来估算高维度标签向量,该方法可同时在特征和标签空间进行投影并构造它们之间有效的预测模型。然后我们证明了层次约束下的最优标签预测问题可以合理地转化为结构性稀疏惩罚下的最优路径预测问题。路径选择模型的引入能够让我们进一步利用多项式时间复杂度的高效网络流求解器。实验结果证明,无论用于标签为树还是DAG结构的数据集,该算法都比现有算法有更好的表现。(第五章:基于最优路径预测的层次化多标签分类) 2.针对以三元组(triplet)形式表达的知识图数据中的链接预测(即知识补全)问题,提出了一种集成利用显式特征模型和隐式特征模型(基于因子化的链接预测模型)的学习框架。具体来说,我们提出一种基于L1-正则化的有偏Logistic Regression的三元组链接预测模型。我们首先依据三元组(h,r,t)三要素(头结点(主语)h,尾结点(宾语)t,关系(谓语)r)在训练集上的相关性提取有效的显式特征,再利用已知的三元组正样本进行正样本和无标记样本学习(PU-learning)。其学习得到的预测模型一方面用来直接进行三元组预测,另一方面用来协助为基于因子化的关系预测模型生成可靠负样本。与此同时,我们提出一种基于相似度语义加权的因子化链接预测模型。利用显式特征计算三元组正负样本对之间的语义相似度,在模型中增加对预测影响较大的数据点(即三元组正负样本对)的权重,得到了比现有的隐式特征模型预测性能更好的隐藏因子表示;最后,综合考虑隐式特征模型与显式特征模型的预测结果进行预测,当这两种模型结果相近时能得到比它们更有优势的表现。(第六章:异质关系数据链接预测)