基于嵌入方法的异质图上的语义相关性搜索

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dama5011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,人们之间的交流越来越丰富。为了增进人们之间的通信交互,多种社交媒体应运而生,如国外的MSN、Facebook,以及国内的QQ、微信等。这些社交媒体极大的增强了人们之间的信息传递能力。社交网络(Social Networks)快速发展的同时也产生了大量的社交数据,社交数据的有效挖掘可以同时促进许多其他业务的进行。因此,如何能够从这些语义丰富的社交网络数据中挖掘出有意义的信息成为当下科研工作的焦点问题。  当前,多种多样类型的实体出现在了社交网络中,构成了信息丰富的异质图(Heterogeneous Graph)。比如,在Facebook和LinkedIn等社交媒体中,就会有“user”(用户)、“school”(学校)、“employer”(雇佣者)多种实体类型的实体节点。异质图中节点的丰富语义提供了节点间多种类型的相关性关系。异质图上的语义相关性搜索,就是为了计算节点之间的相关性关系:给定一个节点作为查询,同时给定某种语义关系,然后检索出这个节点关于这种给定的语义关系的结果节点。语义相关性计算的应用是十分广泛的,如进行图上的连接预测(Link Prediction)、朋友推荐(Friends Recommendation)等。  当前进行异质图上语义相关性搜索主要是基于图上的模式挖掘的方法,这些方法或者需要领域专家的参与,或者有着比较高的时间和空间复杂度,因此难以取得很好的效果。针对于这些问题,本文主要关注于使用图嵌入的方法进行异质图上的语义相关性搜索。本文首先提出了一种使用采样路径来表示节点之间的语义相关性的方法;然后通过将路径进行扩展,增强其表现力,又提出了一种基于子图扩展路径的方法来表示节点间的语义相关性;接着,通过将路径扩展为DAG(Directed Acyclic Graph,有向无环图)的结构,提出了使用DAG来表示节点之间的语义关系的方法。最后我们在真实的数据集上进行了广泛的实验,验证了这三个模型的有效性。本文各部分的主要研究点及创新性如下:  基于路径结构的语义相关性嵌入的ProxEmbed模型:我们考虑使用图嵌入的方法来避免使用特征挖掘的方法来进行语义相关性计算。我们发现,现存的点嵌入的方法是一种计算语义相关性的非直接方法。因此我们提出了一个新的模型——ProxEmbed来直接将两个节点之间的网络结构(多条路径)嵌入到一个向量中。在ProxEmbed模型中,我们用两个节点之间的路径来表示他们之间的语义相关性,然后将这些路径进行嵌入合并到一个向量中作为语义相关性的表示。在模型方面,我们采用了LSTM循环神经网络来进行建模,同时考虑了语义的非对称性及路径折扣因子的影响。然后我们进一步使用训练数据元组进行监督学习来增强相关性嵌入的效果。最终,我们在包含了对称和非对称语义关系的三个真实数据集上进行了测试,并且ProxEmbed的效果明显的好于当前的最优方法。  基于子图扩展路径的语义相关性嵌入的SPE模型:我们提出了结合路径的长度影响,及子图的高阶结构这两者来进行user节点之间语义关系的向量化表示的模型。我们提出一个新颖的模型Subgraph-augrnented Path Embedding(SPE)。SPE以节点路径作为输入,然后将这些路径扩展成子图扩展路径(s-paths),并解决了由子图结构、子图噪声及子图扩展路径的噪声所带来的挑战。最终,SPE将user节点之间的多条子图扩展路径嵌入到了语义相关性向量中。有了这样的语义相关性向量,我们可以很简单的衡量user节点之间的语义关系。实验证明其比当前的最好的对比方法具有更高的准确率。  基于有向无环图的语义相关性嵌入的D2AGE模型:我们提出了一个新颖的基于距离感知的DAG嵌入的模型D2AGE(distance-aware DAG embedding model),使用两个节点之间更加复杂的结构—DAGs表示他们的语义关系。在D2AGE中,我们首先使用距离感知DAG生成方法来生成两个节点之间的多个DAGs;然后使用递归的距离感知D2AG-LSTM模型将这些DAGs映射到一个向量中来表示两个节点之间的语义关系。有了这样一个语义相关性向量,我们生成目标函数后,可以使用给定的训练数据进行参数的训练。经过实验证明,DAG作为一种复杂结构比简单的路径(paths)具有更强的语义表达能力,在语义相关性计算中也有着更高的准确性。  以上三个模型中,我们将第一个基于采样路径来表示语义相关性的方法ProxEmbed作为基础方法,然后在此方法上我们分别拓展了SPE和D2AGE两个模型。SPE是继续使用路径的结构,不过将路径进行了深一层次的扩展,生成了更加复杂的s-path的结构。D2AGE则是将简单的路径结构变成了一种更复杂的结构——DAG,来表示节点之间的语义相关性。通过结构的变化,语义表达能力也逐步变强,语义相关性搜索的效果也变的越好。
其他文献
近年来,在线社会网络以指数级速度飞速发展,已经成为世界各地人们生活的重要组成部分,为人们提供了一个思想交流和贸易经营的平台。目前流行的在线社会网络平台主要有人人网、Fa
随着半导体工艺技术的不断发展,集成电路的测试成本呈快速上升的趋势,其主要原因包括:1)电路规模不断增大和故障类型的增多使得测试数据量迅速膨胀,导致需要更大存储容量的自动测
表情在自然人际交往过程中占据重要的地位,与语言文字相比,表情所传递的情感信息更为有效直接,特别是面部表情,是人类最富表现力的情感表达方式。将人类这种交互中情感认知能力用
随着集成电路工艺水平不断发展导致芯片特征尺寸持续降低,在现代高性能SOC(System On Chip)中,系统向高集成度、低供电电压的趋势发展,电源完整性问题甚至已经超越信号完整性问
在一些技巧性的体育比赛中,裁判的评定往往具有很强的主观性,从而给体育比赛带来了很多不公平性。利用计算机自动对比赛评定或者辅助裁判员评定将有效地减少比赛中的不公甲性。
嵌入式系统开发是当今计算机应用发展的一个热点。随着嵌入式硬件技术的不断发展,在嵌入式应用的不断增长以及系统复杂性不断提高的情况下,必然对嵌入式软件的规模和复杂性的要
随着SoC芯片越来越复杂,芯片的验证工作也越来越困难。传统的硬件验证方法在芯片设计完成后才开始软件验证,会降低验证效率,延缓芯片的上市时间。本文介绍的系统验证技术属于软
近年来,随着网络拓扑的日益复杂,多个自治域系统之间通信的要求越来越高,需要配置的策略越来越复杂。BGP协议是自治系统间路由协议的事实标准,对维护自治系统间选路连通性有重要
劳动力市场信息系统(又称“劳动99”系统)是在我国加快劳动力市场信息化建设过程中应运而生的,并在各地区劳动力资源的管理和调配中起到了重要作用。目前,同一个城市劳动力市场
随着半导体技术的发展,多核多线程体系结构已经成为未来计算机体系结构的发展方向。然而,相应的编程模型,编译器和运行时系统的研究则相对滞后。如何为用户提供一个简单易用的编