论文部分内容阅读
随着科学技术的飞速发展,人们之间的交流越来越丰富。为了增进人们之间的通信交互,多种社交媒体应运而生,如国外的MSN、Facebook,以及国内的QQ、微信等。这些社交媒体极大的增强了人们之间的信息传递能力。社交网络(Social Networks)快速发展的同时也产生了大量的社交数据,社交数据的有效挖掘可以同时促进许多其他业务的进行。因此,如何能够从这些语义丰富的社交网络数据中挖掘出有意义的信息成为当下科研工作的焦点问题。 当前,多种多样类型的实体出现在了社交网络中,构成了信息丰富的异质图(Heterogeneous Graph)。比如,在Facebook和LinkedIn等社交媒体中,就会有“user”(用户)、“school”(学校)、“employer”(雇佣者)多种实体类型的实体节点。异质图中节点的丰富语义提供了节点间多种类型的相关性关系。异质图上的语义相关性搜索,就是为了计算节点之间的相关性关系:给定一个节点作为查询,同时给定某种语义关系,然后检索出这个节点关于这种给定的语义关系的结果节点。语义相关性计算的应用是十分广泛的,如进行图上的连接预测(Link Prediction)、朋友推荐(Friends Recommendation)等。 当前进行异质图上语义相关性搜索主要是基于图上的模式挖掘的方法,这些方法或者需要领域专家的参与,或者有着比较高的时间和空间复杂度,因此难以取得很好的效果。针对于这些问题,本文主要关注于使用图嵌入的方法进行异质图上的语义相关性搜索。本文首先提出了一种使用采样路径来表示节点之间的语义相关性的方法;然后通过将路径进行扩展,增强其表现力,又提出了一种基于子图扩展路径的方法来表示节点间的语义相关性;接着,通过将路径扩展为DAG(Directed Acyclic Graph,有向无环图)的结构,提出了使用DAG来表示节点之间的语义关系的方法。最后我们在真实的数据集上进行了广泛的实验,验证了这三个模型的有效性。本文各部分的主要研究点及创新性如下: 基于路径结构的语义相关性嵌入的ProxEmbed模型:我们考虑使用图嵌入的方法来避免使用特征挖掘的方法来进行语义相关性计算。我们发现,现存的点嵌入的方法是一种计算语义相关性的非直接方法。因此我们提出了一个新的模型——ProxEmbed来直接将两个节点之间的网络结构(多条路径)嵌入到一个向量中。在ProxEmbed模型中,我们用两个节点之间的路径来表示他们之间的语义相关性,然后将这些路径进行嵌入合并到一个向量中作为语义相关性的表示。在模型方面,我们采用了LSTM循环神经网络来进行建模,同时考虑了语义的非对称性及路径折扣因子的影响。然后我们进一步使用训练数据元组进行监督学习来增强相关性嵌入的效果。最终,我们在包含了对称和非对称语义关系的三个真实数据集上进行了测试,并且ProxEmbed的效果明显的好于当前的最优方法。 基于子图扩展路径的语义相关性嵌入的SPE模型:我们提出了结合路径的长度影响,及子图的高阶结构这两者来进行user节点之间语义关系的向量化表示的模型。我们提出一个新颖的模型Subgraph-augrnented Path Embedding(SPE)。SPE以节点路径作为输入,然后将这些路径扩展成子图扩展路径(s-paths),并解决了由子图结构、子图噪声及子图扩展路径的噪声所带来的挑战。最终,SPE将user节点之间的多条子图扩展路径嵌入到了语义相关性向量中。有了这样的语义相关性向量,我们可以很简单的衡量user节点之间的语义关系。实验证明其比当前的最好的对比方法具有更高的准确率。 基于有向无环图的语义相关性嵌入的D2AGE模型:我们提出了一个新颖的基于距离感知的DAG嵌入的模型D2AGE(distance-aware DAG embedding model),使用两个节点之间更加复杂的结构—DAGs表示他们的语义关系。在D2AGE中,我们首先使用距离感知DAG生成方法来生成两个节点之间的多个DAGs;然后使用递归的距离感知D2AG-LSTM模型将这些DAGs映射到一个向量中来表示两个节点之间的语义关系。有了这样一个语义相关性向量,我们生成目标函数后,可以使用给定的训练数据进行参数的训练。经过实验证明,DAG作为一种复杂结构比简单的路径(paths)具有更强的语义表达能力,在语义相关性计算中也有着更高的准确性。 以上三个模型中,我们将第一个基于采样路径来表示语义相关性的方法ProxEmbed作为基础方法,然后在此方法上我们分别拓展了SPE和D2AGE两个模型。SPE是继续使用路径的结构,不过将路径进行了深一层次的扩展,生成了更加复杂的s-path的结构。D2AGE则是将简单的路径结构变成了一种更复杂的结构——DAG,来表示节点之间的语义相关性。通过结构的变化,语义表达能力也逐步变强,语义相关性搜索的效果也变的越好。