论文部分内容阅读
在互联网时代,社交网络已经成为人们生活中不可分割的一部分,是人们获取信息、交友的主要媒体。随着社交网络不断发展,其自身虚拟性、匿名性等特点使之成为一把双刃剑,在给人们带来便利的同时也成为造谣者违法犯罪的新渠道。造谣者躲在虚拟的身份背后在网络上进行传播谣言、诈骗、侵害他人名誉等犯罪行为,严重扰乱了网络秩序,危害其他用户的合法权益。需要一种能有效识别用户身份的方法来维护网络环境的和谐发展。 目前,针对社交网络中用户身份识别的研究主要是通过社交网络用户公开的信息推测用户群体的信息或倾向。上述方法主要是挖掘用户的特征属性对用户群体进行分类,在用户属性的识别粒度不够细,难以推测个体用户真实身份;没有充分利用社交网络的社交关系结构化数据推测用户的特征属性。因此,本文开展社交网络用户身份特征识别的虚实映射方法研究,建立社交网络用户真实身份和虚拟身份之间的映射。定义了用户身份特征、包含当前用户的完全子图、多度传递完全子图等概念,创新性地提出三种社交网络用户身份特征识别方法,并通过融合三种方法的结果推测用户真实身份,设计了方法的整体流程。在收集的新浪微博1.2亿用户数据中随机选择两组随机样本数为1000和10000的信息已知的微博认证用户作为实验数据集进行实验,结果表明本方法具有较高的准确率和覆盖率,有较好的应用价值。论文的主要贡献包括以下几个方面: 1.提出了一种基于地理位置的社交网络用户身份特征识别方法 基于地理位置的社交网络用户身份特征识别方法通过用户地理位置推测当前用户的地址信息和实体信息。方法利用社交网络用户频繁的经纬度地理位置和签到信息获得实体列表;结合博文内容分析计算近似度权重,衡量实体为用户所属实体的可能性;最后通过实体名称聚合算法,对近似度权重计算结果进行优化。实验结果表明所提方法能有效利用地理位置信息细粒度推测用户身份特征。 2.提出了一种基于社交关系的多数投票身份特征识别方法 基于社交关系的多数投票身份特征识别方法利用社交网络的同质性,通过分析与被推测用户具有互粉关系的用户属性,识别用户的未知身份,推测用户的地址信息、实体信息和用户兴趣。定义了用户属性识别分类器,对被推测用户的互粉属性特征进行分类,将分类结果输出给多数投票计数器进行计数统计。实验结果表明所提方法有广泛的适用范围和较高的准确率。 3.提出了一种基于完全子图的身份特征识别方法 基于完全子图的身份特征识别方法根据“三度影响力”原则,构建推测模型,通过分析社交关系结构图中构成完全子图的用户属性,推测团内用户的三度互粉的未知身份。提出了包含推测用户的完全子图身份特征识别方法和多度传递的完全子图身份特征识别方法,利用被推测用户的三度互粉构成的社交网络拓扑结构图的邻接矩阵搜索完全子图,通过多数投票器方法进行推测,有效改善了社交关系稀疏导致用户身份特征识别结果不稳定问题。实验结果表明所提方法具有较高的准确率。