论文部分内容阅读
跨社交网络用户多重身份识别作为在线社交网络研究的重要组成部分,在网络空间治安管理、个性化服务推荐、社交网络数据挖掘等方面具有重要的意义。当前,跨网络身份识别研究已经取得较大进展,多种身份识别算法相继被提出,但相关研究中仍然存在一些问题:(1)当前基于拓扑结构信息的算法只关注自中心网络拓扑环境,未考虑隐藏的标签节点,而隐藏的标签节点对提高节点的辨识度具有重要作用;(2)目前利用公开档案属性信息进行用户身份识别的算法,在属性项的权重分配上使用主观导向的客观修正法,没有考虑各属性项特殊的含义与作用;(3)基于行为信息的用户识别中,针对用户独特的写作与阅读风格对行为规律建模,但忽略了行为信息在社交网络中动态演变的问题。针对以上问题,本文提出三种身份识别算法,以进一步提高跨社交网络身份识别算法的精准度和通用性,主要研究内容如下:1.提出了一种基于隐藏标签节点挖掘的跨网络用户身份识别算法。该算法首先为待匹配节点增加社团聚类信息,将挖掘出的隐藏标签节点加入到待识别节点的好友网络里,进而通过对潜在的关系信息加以运用,以提升待识别节点的辨识度,然后利用标签节点找寻最佳匹配,最后通过迭代运算完成全网络所有节点的身份识别。多个随机网络与真实社交网络数据集上的实验结果显示,与基于自中心网络的算法相比,所提算法在保证识别准确率的前提下,可以提升召回率与综合性能,从而识别出更多的用户账号。2.提出了一种基于档案属性信息熵权决策的跨网络用户身份识别算法。首先,该算法对不同属性项根据其数据类型及物理含义采用不同的相似度计算方法,进而根据各属性的信息熵值赋予权值,最后融合各个属性判定账号是否匹配。理论分析和实验结果表明,与基于主观导向的客观修正赋权策略的识别算法相比,所提算法具有较好的鲁棒性,在多个社交网络之间识别账号时具有更好的识别性能指标。3.提出一种基于兴趣演变规律分析的跨网络用户身份识别算法。该算法首先通过引入社交网络中用户节点特有的行为类别和网络结构等附加信息,对标准主题模型进行改进,然后将用户的兴趣主题分布按照时间段进行划分,基于整体静态分析与局部动态分析相结合的方式对账号进行匹配。在真实微博类社交网络数据集上的实验结果表明,所提算法中权重改进后的主题模型的困惑度值比标准主题模型更低,与当前具有代表性的基于主题挖掘类身份识别算法相比,所提算法具有更高的身份识别准确率与良好的综合性能。