面向社交网络的用户重识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:b479676614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,社交网络极大方便了人们的工作和生活,为社会发展带来了巨大机遇,但同时也带来了用户隐私泄露的威胁。每个社交网络都包含用户的部分资料信息。如果攻击者通过技术手段识别用户不同社交网络的账户,就可以构建用户的完整画像。当攻击者对获得的用户隐私进行非法利用时,会严重破坏用户的隐私安全。在此情形下为保护用户隐私,需首先模拟评估攻击者的重识别能力。本文以流行的社交网络为研究对象,分析潜在的用户隐私安全威胁和当前用户重识别方法的不足,设计新的重识别方法,并实现用户重识别的原型系统。本文研究内容和成果包括三个方面:  1)提出了基于推文的用户重识别方法。首先研究了推文语义的向量表示方法,在此基础上,给出一种高相似同天同行为分析方法。该方法通过检测账户在不同社交网络是否存在多次同天发表相近或相同内容的行为,判断账户是否属于同一用户;其次,设计了针对用户在热点事件、特殊节日时,因发表大量相似推文而导致重识别效果减弱的处理方案;此外,还研究了用户间整体推文的相似程度,以进一步提高用户重识别的准确率。实验表明,上述方法均表现出良好的效果。  2)提出了基于推文与属性的用户重识别方法。研究了不同社交网络用户属性的构成特点,并分析了每种属性的填写情况;在此基础上,设计了一种基于填写率的属性权重计算模型,以此衡量各属性对用户相似度的贡献大小,并通过实验分析验证了其有效性和可扩展性;此外,还探讨了将推文与属性相结合时,各特征所占的权重大小对用户重识别效果的影响。  3)实现了用户重识别原型系统。设计了一套高效稳定的用户重识别系统架构,实现了整体功能。并对其中数据采集等关键技术进行了深入研究。应用该原型系统对QQ和人人社交网络的数据进行了分析,取得了较好的用户重识别效果。实验表明,即使不考虑用户社交关系,用户的推文与属性依然提供了足够的信息使攻击者将用户不同社交网络的账户相关联,从而导致更多的隐私被泄露。
其他文献
随着Internet的发展,基于Internet的B2B电子商务也不断发展.Internet为各种实体提供了前所未有的机会,使他们利用Internet获得了空前的经济回报,体现了Internet的巨大价值.然
随着Internet的发展,越来越多的嵌入式产品能够连入互联网.通过为现有嵌入式系统增加Internet接入能力来扩展其功能,这就产生了嵌入式Internet技术.嵌入式Internet技术涉及的
序列比对是生物信息学中一个基本的问题。在序列比对中广泛使用的三种算法有Needleman-Wunsch算法、Hirschberg算法和FastLSA算法,而FastLSA算法是这三种算法中效率最高的算法
针对目前电子邮件系统中垃圾、反动邮件所引起的安全性问题,提出一种邮件过滤系统的模型。该模型采用CORBA/IIOP体系结构,在服务器端进行基于地址、基于内容的邮件过滤,其中
日志来源于用户上网行为、应用系统、操作系统、网络设备等,具有体量大、异构、价值密度低的特点。日志系统在各种应用系统中均作为基础组件存在,产生的日志数据蕴含着丰富的内
中医脉象自动分类识别技术是一种将现代信息处理技术与传统的中医理论相结合,根据人体的脉象图谱自动进行对脉象种类判断的技术,从而为中医辨证论治提供有价值的信息。中医脉诊
本课题主要研究数值模拟RTM工艺中的树脂充模流动过程,并实现了树脂充模流动过程在普通Windows窗口下模拟显示。在研究过程中做了以下工作: 首先针对特定的三维编织物进行树
本文通过在学生信息管理系统中的具体实践和运用,对多维关联规则数据挖掘技术进行了探索,实现了基于多维频繁项集进行多维关联规则数据挖掘的一种实用高效的方法,并建立了一个高
基于地理位置的移动信息服务正在全球兴起,移动定位使一系列的无线应用成为可能.特别是全球定位系统GPS(Global Positioning System)的引入,使移动定位信息的获得简单可行,而
Android操作系统自2008年问世之后,经过几年的迅猛发展现已成为市场占有率最高的手机操作系统。基于此系统开发的Android应用数量庞大,但质量却参差不齐。手机内保存着用户的大