论文部分内容阅读
随着互联网技术的高速发展,社交网络极大方便了人们的工作和生活,为社会发展带来了巨大机遇,但同时也带来了用户隐私泄露的威胁。每个社交网络都包含用户的部分资料信息。如果攻击者通过技术手段识别用户不同社交网络的账户,就可以构建用户的完整画像。当攻击者对获得的用户隐私进行非法利用时,会严重破坏用户的隐私安全。在此情形下为保护用户隐私,需首先模拟评估攻击者的重识别能力。本文以流行的社交网络为研究对象,分析潜在的用户隐私安全威胁和当前用户重识别方法的不足,设计新的重识别方法,并实现用户重识别的原型系统。本文研究内容和成果包括三个方面: 1)提出了基于推文的用户重识别方法。首先研究了推文语义的向量表示方法,在此基础上,给出一种高相似同天同行为分析方法。该方法通过检测账户在不同社交网络是否存在多次同天发表相近或相同内容的行为,判断账户是否属于同一用户;其次,设计了针对用户在热点事件、特殊节日时,因发表大量相似推文而导致重识别效果减弱的处理方案;此外,还研究了用户间整体推文的相似程度,以进一步提高用户重识别的准确率。实验表明,上述方法均表现出良好的效果。 2)提出了基于推文与属性的用户重识别方法。研究了不同社交网络用户属性的构成特点,并分析了每种属性的填写情况;在此基础上,设计了一种基于填写率的属性权重计算模型,以此衡量各属性对用户相似度的贡献大小,并通过实验分析验证了其有效性和可扩展性;此外,还探讨了将推文与属性相结合时,各特征所占的权重大小对用户重识别效果的影响。 3)实现了用户重识别原型系统。设计了一套高效稳定的用户重识别系统架构,实现了整体功能。并对其中数据采集等关键技术进行了深入研究。应用该原型系统对QQ和人人社交网络的数据进行了分析,取得了较好的用户重识别效果。实验表明,即使不考虑用户社交关系,用户的推文与属性依然提供了足够的信息使攻击者将用户不同社交网络的账户相关联,从而导致更多的隐私被泄露。