论文部分内容阅读
我们生活在一个相互联系的世界里,现实世界中大量的数据、对象或个体之间相互联系、相互作用,形成众多大型、互联和复杂的网络。不失一般性,这种相互联系的网络被称为信息网络。其中,由相同类型的节点和链接构成的网络称为同构信息网络,而由不同类型的节点和链接构成的网络称为异构信息网络。随着信息网络的不断发展,现实世界中的很多关系可以用既有正边,又有负边的极性信息网络来表示。其中,正边可以表示朋友、信任、喜欢等积极的关系,负边可以表示敌人、不信任、不喜欢等消极的关系。比如,国际关系中,国家与国家之间的合作与对抗;电子商务领域,顾客对商品的好评与差评;生命科学领域,激素对生长发育的促进与抑制等都可以抽象为极性信息网络来加以描述。在极性信息网络中,我们可以清晰地看到各对象之间的合作或对立关系,有助于我们更加准确地认识和分析复杂的系统。在信息网络上度量两个节点之间的相关性(或相似性)具有重要的意义。通常我们把同类型节点之间的相近程度称为相似性,而把异类型节点之间的相近程度称为相关性。比如在DBLP文献网络中,我们可以根据作者之间的相似性来对他们进行分类,从而将不同领域的研究人员进行有效划分;我们还可以通过衡量作者与会议之间的相关性,对作者进行更加精确的用户画像。目前,信息网络上的节点相关性度量工作主要针对非极性信息网络,极性信息网络上的节点相关性度量尚不多见。在极性信息网络上,度量两个节点之间的相关性是一个具有挑战性的问题。由于极性信息网络不仅含有正边,而且还有大量的负边,正边和负边蕴含的语义是相反的,以往针对非极性信息网络的研究思路和方法并不完全适用于极性信息网络。在极性信息网络上,如何正确处理正边与负边的关系,充分利用正边和负边的语义信息仍是一个尚未解决的问题。本文研究极性信息网络上的节点相关性度量问题,包括在同构极性信息网络上度量同类型节点之间的相似性,以及在异构极性信息网络上度量异类型节点之间的相关性。本文的主要贡献包括:1、提出了一个称为NeiSim的相似性度量模型,该模型能够度量同构极性信息网络上同类型节点之间的相似性。NeiSim能够充分利用极性信息网络中正边和负边所蕴含的语义信息,利用源节点和目标节点对相同节点的不同偏好,将Jaccard系数扩展至极性信息网络来衡量它们之间的相似性。NeiSim通过比较源节点和目标节点的直接邻居节点集合来判断源节点和目标节点是否相似。对于源节点和目标节点没有共同邻居的情况,NeiSim基于结构平衡理论采用相似度传播的方式间接衡量它们之间的相似程度。NeiSim不仅考虑了两个节点的局部特征,还考虑了网络的整体结构。在真实数据集Epinions和Slashdot上的实验表明,NeiSim能有效度量两个节点之间的相似程度。2、提出了在带权的异构极性信息网络上度量异类型节点之间相关性的度量模型WsRel。WsRel针对异构信息网络中网络结构复杂、语义丰富的特点,使用元路径技术获取不同路径蕴含的语义信息。该模型合理利用极性信息网络中的负边信息,将极性信息网络转换为非极性信息网络。通过元路径限定下的随机游走来获取源节点与目标节点之间的相关性。针对源节点和目标节点之间存在多种元路径的情况,WsRel采用一种启发式算法把基于不同元路径得到的相关性值进行组合,从而能够综合度量源节点与目标节点之间的相关性。WsRel能够充分利用异构极性信息网络的网络结构来度量源节点与目标节点之间的相关程度,在IMDB数据集上的实验表明了 WsRel模型的有效性。