面向异质关系数据的协同因子化模型与算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Gwmgdemj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异质关系数据(Heterogeneous Relational Data)(如社交网络,知识图谱,基因-蛋白质作用网络中的数据)正成为信息产业的主流数据形式以及大数据的重要构成部分,具有丰富的语义价值。异质关系数据一般指的是存在多于一种实体类型或一种以上关系类型的数据,其中的实体与关系往往构成不同类型的链接,进而形成复杂的依存模式。由于传统的机器学习方法大多假设数据独立同分布,因此以传统机器学习方法应对异质关系数据往往会造成严重的结构信息损失。  本文以协同因子化为主要研究方法,从信息表示,融合,分类,聚类,关系预测这几方面对异质关系数据进行了深入的研究。通过模型与算法研究以及实验验证,本文取得了一系列的研究成果。这些研究成果不仅为今后的异质关系数据模型与算法研究提供一定的借鉴意义,也将有助于不同领域中异质关系数据的具体分析和运用。论文的主要内容及创新点如下:  首先,借鉴现有方法以“异质信息网络(Heterogeneous Information Network)”来描述异质关系数据,以“元路径(Meta Path)”来刻画异质关系数据节点间链接的模式,本文提出一种在元路径特征层次上的结构信息(与属性信息联合)量化模块,以实现结构-属性信息在中层语义上的融合。具体地来说,我们提出一种通用的元路径权重计算方法,以及一种新的链接相似度度量方法,通过元路径加权、筛选,链接相似度计算、加权组合,最终生成加权结构-属性语义矩阵。该量化模块能够在特征层次上有效地融合异质关系数据的结构、属性以及(部分)标签信息,是后续章节进行异质关系数据分类、聚类的分析框架中不可或缺的组成部分。实验表明,与当下的方法相比,我们提出的元路径权重计算方法与链接相似度计算方法均具有优势。(第二章:异质关系数据的信息表示)  其次,由于异质关系数据普遍存在高度稀疏与维度灾难等问题,其数据模式统计显著性不明显。在这种情况下充分利用结构信息与属性信息,使得二者互补增强就显得非常必须。本文明确了“统计+结构”的理念,提出了一种有效解决异质关系数据分类和聚类的算法框架。该框架将结构信息与属性信息进行相互渗透式融合:从算法上说来,首先相关信息被融合生成加权结构-属性语义矩阵,紧接着从统一、融合的视角通过协同因子化对这些信息加以利用,最终得到符合分类和聚类任务的分布式表示。该框架按照以下方案实施:  1.针对异质关系数据的节点分类任务,提出了一种能够无缝融合结构信息与属性信息的协同矩阵分解模型,通过在加权语义矩阵中融合结构、属性和标签信息,并在流型约束下将加权语义矩阵与属性信息矩阵同步分解,得到具有高度表达能力的低维隐藏因子表示。(第三章:异质关系数据分类)  2.针对异质关系数据的节点聚类任务,提出了一种基于元路径的协同非负矩阵分解模型,在加权语义矩阵中融合结构、属性信息,并在双图拉普拉斯正则化与聚类指示矩阵的约束下,使得在优化的过程中,聚类目标的隐藏因子能够逐渐表达出聚类特性。(第四章:异质关系数据聚类)  最后,针对异质关系数据的链接预测任务,本文从以下方面进行了研究:  1.由于现实中许多异质关系数据实体的概念标签分层排列在树(Tree)或有向无环图(DAG)中,对这些实体与其概念标签之间进行“is-a”类型的链接预测,实质上等价于对这些实体进行层次化的多标签分类。本文采用偏最小二乘(PLS)技术来估算高维度标签向量,该方法可同时在特征和标签空间进行投影并构造它们之间有效的预测模型。然后我们证明了层次约束下的最优标签预测问题可以合理地转化为结构性稀疏惩罚下的最优路径预测问题。路径选择模型的引入能够让我们进一步利用多项式时间复杂度的高效网络流求解器。实验结果证明,无论用于标签为树还是DAG结构的数据集,该算法都比现有算法有更好的表现。(第五章:基于最优路径预测的层次化多标签分类)  2.针对以三元组(triplet)形式表达的知识图数据中的链接预测(即知识补全)问题,提出了一种集成利用显式特征模型和隐式特征模型(基于因子化的链接预测模型)的学习框架。具体来说,我们提出一种基于L1-正则化的有偏Logistic Regression的三元组链接预测模型。我们首先依据三元组(h,r,t)三要素(头结点(主语)h,尾结点(宾语)t,关系(谓语)r)在训练集上的相关性提取有效的显式特征,再利用已知的三元组正样本进行正样本和无标记样本学习(PU-learning)。其学习得到的预测模型一方面用来直接进行三元组预测,另一方面用来协助为基于因子化的关系预测模型生成可靠负样本。与此同时,我们提出一种基于相似度语义加权的因子化链接预测模型。利用显式特征计算三元组正负样本对之间的语义相似度,在模型中增加对预测影响较大的数据点(即三元组正负样本对)的权重,得到了比现有的隐式特征模型预测性能更好的隐藏因子表示;最后,综合考虑隐式特征模型与显式特征模型的预测结果进行预测,当这两种模型结果相近时能得到比它们更有优势的表现。(第六章:异质关系数据链接预测)
其他文献
本研究课题的试验主体是对LGM-15/45轿车轮毂轴承的性能测试,研究的主要范围包括软件的设计、硬件的选型和搭建、控制理论方法的选择及控制参数的优化,如何进一步提高测试系
本论文对遗传算法的运行机制进行了研究,综合应用遗传算法和惩罚函数法相结合的最优化理论和技术,进行了污水处理过程优化控制遗传算法程序的设计和模拟仿真。仿真结果表明:在某
本文以首钢三炼钢生产组织为研究对象,研究静态计划编排算法,并以算法为基础设计并开发计划编排辅助系统,指导炼钢连铸车间生产。 结合首钢三炼钢生产作业特点,本文研究静态计
随着操作系统和应用系统的不断发展和广泛应用,其规模越做越大越复杂,其可靠性和可用性也越来越难以保证。通常在整个系统中,软件故障所引起的系统运转中断远远高于硬件故障。软
本课题以肉类新鲜度检测为研究对象,以数据融合为理论基础,对发展应用较为成熟的人工神经网络技术及基于神经网络的数据融合技术进行了分析研究。在分析了肉类变质机理的基础上
由于人类生活于地球大气的边界层,人类的所有活动都受到边界层大气变化的影响,所以探测边界层大气的变化就显得尤为重要。而低空探测是人们研究边界层大气运动规律的一种常用方
地物分析是指利用观测数据认识地球表面物体性质的过程,可广泛应用于资源勘查、土地规划、灾情防治诸多方面。数字高程模型(DEM)和多光谱图像是进行地物分析的两种重要数据源,
本文在分布式人工智能和Agent技术的基础上,以国家旅游局金旅工程为应用对象,对Agent技术在分布式智能信息系统中的理论与应用进行研究。论文的主要工作和创新点如下:①提出并建
模式分类是人工智能的一个基础研究领域,是从数据中获取有效信息的一个重要手段。各种各样的分类器被相继提出,并被广泛地用于解决许多实际问题。在实际的分类问题中,存在两种常
行为识别是计算机视觉领域的一个重要分支,在机器人视觉、智能视频监控、人机交互、医疗护理、虚拟现实及游戏控制等领域有着广泛应用前景,其研究目的主要是让计算机通过摄像机