论文部分内容阅读
随着大数据时代的来临,社交媒体网站的日益普及促使越来越多的人参与到多个在线社交网络中,不同的在线社交网络平台以不同的功能吸引用户,如信息搜索、分享或社交联系等,为了更好地利用每个社交网络提供的服务,用户倾向于加入多个在线社交网络。如何将社交网络的多个用户身份关联起来作为社交媒体中的一项新兴工作,具有重要意义。 本文通过研究目前有代表性的用户关联模型,提出了一个基于综合信息的用户关联模型(BiALP),实现了一个基于大规模网络的用户关联系统。本文的主要贡献有: 1.提出一个基于综合信息的用户关联模型(BiALP),该模型通过节点表达的方法学习网络的内在结构信息、属性信息和内容信息,以源网络和目标网络的节点表达为特征,以已关联用户对作为带标签数据,采用二分类监督学习的方式学习源网络与目标网络之间的关联关系。 2.提出基于候选集生成的模型加速算法,对于源网络中的用户,首先根据属性特征生成目标网络中可能关联的用户候选集,再利用BiALP模型从候选集中选择关联概率较大的用户列表。本文提出了三个候选集生成算法:余弦相似度算法、Jaro-Winkler Similarity算法和局部敏感哈希算法。 3.将模型扩展到大规模数据的场景,构建一个基于大规模网络的用户关联系统,针对网络规模大、处理时延高的问题做出一系列优化,具体做法是将处理过程分为离线处理和在线处理,采用局部敏感哈希算法生成候选集,基于Spark计算引擎实现分布式BiALP模型。 大量实验表明,BiALP模型与目前有代表性的其他用户关联模型相比效果有明显的提升(35%),用户关联系统支持处理大规模数据,处理性能相比单机系统也有很大提升。