论文部分内容阅读
近年来互联网技术的快速发展使得大规模信息网络的分析成为研究热点,尤其是网络空间中用户属性多样性的特点使得对异构信息网络的分析需求很大。使用异构信息网存放的用户节点更接近实体对象真实存在的状态,所以携带更丰富的结构信息与语义信息。在面向异构信息网的应用中,信息网节点间的相似性度量具有特殊的意义,它是推荐系统、信息检索和连接关系预测等研究的理论基础。本文系统的介绍了信息网中节点间的相似度量,提出一种组合元路径挖掘算法用于路径约束下的节点相似度量,并引入网络表示学习的方法,然后将路径约束的思想延拓到其中用于生成节点特征向量。本文的研究主要包括以下几点:第一、给出异构信息网节点相似度量所用基本理论的定义,对同构信息网与异构信息网框架下经典的节点相似度量算法展开介绍。在面向同构信息网的方法中,针对基于特征的算法和基于连接关系的算法展开。在面向异构信息网的方法中,则关注于元路径约束下的节点相似度量方法。第二、跳出经典的信息网节点相似度量的范畴,引入网络表示学习的方法到信息网节点间相似度量中,将节点间的相似度量问题变为网络表示学习生成的节点向量间的相似度量问题。本文以基于简单神经网络的网络表示学习方法为代表对其背后的数学原理进行分析,并实验验证网络表示学习在节点相似度量上的有效性。另外,受到元路径约束在语义表达上的优势,本文将其与网络表示学习结合来生成携带丰富结构信息与语义信息的特征向量作为节点相似度量的特征数据。第三、对元路径约束下的节点相似度量展开深入的研究,提出了一种新的组合元路径挖掘算法用于元路径约束下的节点间相似性度量。该算法以单一参考样本对作为输入,输出携带参考样本对节点间关联语义的组合元路径。该算法认为较短元路径携带的语义更丰富,且路径实例的分布可用于路径加权以平衡语义表达。由其挖掘到的组合元路径在描述节点间关联关系上占有优势,可提升相似度量精度。