论文部分内容阅读
异质信息网络蕴含丰富的结构信息和语义信息,能够形象、灵活地区分交互系统中对象及关系的差异性。链路预测是图挖掘的基本问题,它根据观察网络中现有的信息估计两个节点之间链路的存在概率,可作为解决数据挖掘中许多任务的基础。现有研究方法多数只关注网络拓扑结构而忽略了节点属性信息,并且用于链路预测的相似性度量方法往往根据元路径考虑节点间的路径相似性。本文根据数据特性提取节点属性信息,结合图核理论,进行异质信息网络链路预测,从节点属性和图拓扑结构两个层面分析问题。论文主要工作包括:
(1) 生成子图与向量化节点属性
通过搜索元路径,筛选网络中对象之间的有用信息。结合深度优先遍历方法,构造自动元路径生成方法。以生成的元路径集合为基础,围绕目标节点对修剪异质信息网络,得到经过此节点对的路径实例构成的子图。面对节点属性信息,使用TF-IDF方法和相似性度量方法选出特征词,利用Glove模型生成词向量表示特征信息,以向量化表示目标节点对的节点属性。利用元路径生成子图并向量化节点属性,为后续研究提供基础。
(2) 基于图核的链路预测方法
提取子图相似性特征,利用SVM学习子图特征,预测链路存在的可能性。结合图核理论对子图进行相似性度量,图核将图映射到Hilbert空间,在Hilbert空间中计算两个图之间的相似度。然后根据图核方法得到的特征向量,训练SVM作为链路预测模型,得到链路预测分类结果。同时考虑网络拓扑结构和节点属性信息,得到更全面的特征,以提高预测精度。
(3) 实验验证与分析
在Aminer数据集的四个子数据集上,本文提出方法NGLP与三个监督学习模型和四个基于得分的模型分别对比,进行实验验证及分析。本文方法的度量结果在不同子数据集上均有提升,实验结果表明,本文算法在提高精度的同时保证了一定的稳定性。
(1) 生成子图与向量化节点属性
通过搜索元路径,筛选网络中对象之间的有用信息。结合深度优先遍历方法,构造自动元路径生成方法。以生成的元路径集合为基础,围绕目标节点对修剪异质信息网络,得到经过此节点对的路径实例构成的子图。面对节点属性信息,使用TF-IDF方法和相似性度量方法选出特征词,利用Glove模型生成词向量表示特征信息,以向量化表示目标节点对的节点属性。利用元路径生成子图并向量化节点属性,为后续研究提供基础。
(2) 基于图核的链路预测方法
提取子图相似性特征,利用SVM学习子图特征,预测链路存在的可能性。结合图核理论对子图进行相似性度量,图核将图映射到Hilbert空间,在Hilbert空间中计算两个图之间的相似度。然后根据图核方法得到的特征向量,训练SVM作为链路预测模型,得到链路预测分类结果。同时考虑网络拓扑结构和节点属性信息,得到更全面的特征,以提高预测精度。
(3) 实验验证与分析
在Aminer数据集的四个子数据集上,本文提出方法NGLP与三个监督学习模型和四个基于得分的模型分别对比,进行实验验证及分析。本文方法的度量结果在不同子数据集上均有提升,实验结果表明,本文算法在提高精度的同时保证了一定的稳定性。