论文部分内容阅读
随着在线社交网络的迅速发展,越来越多的人在多个社交网络上拥有账号。然而互联网中缺乏一个能够关联人们在各个社交网络中账号的身份标识,导致无法获得完整的用户信息。跨社交网络用身份识别解决的便是此问题,即识别出单一用户在不同社交网络中拥有的多个虚拟账号,其在人物搜索、跨平台推荐系统、用户画像等实际应用中具有重要意义。当前,跨社交网络身份识别算法主要利用社交网络中的网络拓扑结构信息、用户属性信息以及用户行为信息进行身份识别,针对上述三类信息的相关研究虽然取得了一定进展,但仍存在以下不足:(1)当前基于网络拓扑结构的身份识别算法只关注网络中节点间的好友关系,未考虑网络中的节点间非好友关系,而非好友关系对于提升身份识别精度具有重要作用。(2)目前利用用户属性信息进行身份识别的算法,在计算用户档案相似性时,仅仅追求属性值相似,忽视了同一用户在不同时间点拥有不同属性值这一现象,缺乏对用户属性的时变分析。(3)基于用户轨迹的身份识别方法,将用户访问的各个地理位置看作坐标点的集合进行处理,忽略了用户轨迹中各个地理位置的顺序特征。针对以上问题,本文面向社交网络中的网络拓扑结构信息、用户属性信息以及用户轨迹信息,分别提出三种身份识别算法。主要内容如下:1.提出了基于带权超图的用户身份识别算法。首先该算法引入带权超图来表示网络中节点间的好友关系与非好友关系,其次结合身份已知的种子节点,表示待匹配节点所处的拓扑结构,提升了节点间的相似性度量的准确度。最后利用交叉匹配算法,迭代地计算出匹配的节点对。在DBLP网络与真实社交网络上的实验结果表明,所提算法在准确率和召回率方面均有提升。2.提出了基于属性值转移规律的用户身份识别算法。首先该算法对用户属性数据进行统计分析,得到不同属性值随时间发生转移的概率,然后在计算用户档案间相似性时,将属性值转移概率与传统的文本相似性结合,以达到在计算属性信息相似度时,考虑属性值随时间转移的目的。在多社交网络数据集上的实验结果表明,所提算法可以分析出属性值随时间转移的规律,克服了仅仅追求属性值文本相似的缺点,有效提升了身份识别的准确率与综合评价指标。3.提出了基于轨迹信息位置访问顺序特征的用户身份识别算法。首先对用户轨迹进行预处理,将用户轨迹按照一定的时间粒度、距离尺度进行划分,使得用户轨迹中的位置顺序特征易于提取,其次引入paragraph2vec算法中的PV-DM模型,提取用户轨迹中的位置访问顺序特征,利用提取出的特征计算轨迹相似性,实现跨网络的用户轨迹匹配。在真实时空数据集上的实验表明,该方法有效地提升了身份识别的准确率。