基于社会化媒体用户行为的身份关联问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:spflying2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会化媒体应用的普及,网络上留有大量的用户行为信息。尽管大多用户已具备隐私保护意识,有意识地隐藏身份信息,但是常常忽略了随机动态的行为信息带来的隐私泄漏。攻击者通过分析用户的行为语义,能够发现用户的兴趣爱好、政治倾向等敏感信息,进而利用这些特征来进行用户身份关联攻击。身份关联有许多应用场景,例如关联不同平台上属于同一个人的多个账号,可以使用多平台信息更精准地为用户画像,从而进行广告投放或提供内容服务,以增加用户满意度,提高商业效益。本文研究使用用户行为中的话题信息来进行身份关联攻击的可行性,目的在于提醒用户更加留意自己的行为,防范隐私泄漏。  基于社会化媒体上的用户行为信息进行身份关联面临诸多挑战。首先,用户行为受到平台特点、流行话题以及个体情绪状态等综合因素的影响,具有随机性、动态性和碎片化等特点,不像用户名、邮箱等静态属性具有较强标识性或唯一性。其次,用户行为形式和行为对象是平台依赖的,在不同平台上的行为特点有很大差异,海量行为信息中包含的复杂语义缺乏可比较性。为了解决以上挑战,本文使用了用户行为中涉及的客体内容的话题进行建模,具有形式一致性、语义高度概括性等特点,提出了基于表示学习的话题隐式向量建模方法,使其能够度量话题之间的内在语义关联性。然后根据用户与话题的交互行为,将用户的隐式特征建模成相同语义空间下的向量,即便用户行为中的话题发生了变化,只要这些话题包含相似的语义信息,模型依然能够得到稳定的用户特征。  本文提出了两个创新性的优化目标来学习话题的向量表示:(1)共现话题对之间的语义兼容性,该目标使得具有相似语义的话题在隐式空间中距离更近,帮助从动态的用户行为中挖掘稳定的内在特征;(2)相同用户的内在特征的一致性,该目标利用种子用户获取了额外的话题语义背景知识,增加了话题的内在语义关联性。本文使用了噪声对比估计(NCE)方法重构目标函数,避免了计算过程中标准化项的庞大计算量,很大程度上提升了学习速度。对于优化求解算法,本文基于Adam方法进行了改进,使之适合于多目标的联合优化,避免了不同目标在优化中不兼容的问题,减少了迭代次数。最终基于用户行为在话题上的分布得到用户内在特征向量,进而通过特征向量的距离来关联用户身份。本文使用了来自知乎和MovieLens的两个真实数据集进行验证,结果显示了本文方法明显优于相关方法。  为了更好地理解学习结果,本文分别从话题和用户两个角度给出了模型的语义解释。从话题角度论证了话题表示向量具备语义可解释性,从用户角度直观地展示了表示学习如何帮助正确地关联用户身份。最后,通过分析失败案例讨论了模型的局限性,通过为模型输出结果增加置信度,进一步提升了该方法判定身份关联的准确率。
其他文献
随着互联网的迅猛发展以及电子商务的快速流行,海量信息充斥在人们的生活中。信息超载问题也越来越严重。为了解决该问题,推荐系统就此诞生。它通过分析用户的历史行为记录,得出
MQX是一款主要面向工业控制、汽车电子及消费电子等领域实时多任务应用的嵌入式实时操作系统。2009年,飞思卡尔公司半导体公司开始免费开放MQX3.0.1版源代码,同年,苏州大学飞思
随着Web技术的不断发展进步,J2EE已成为Web开发的应用技术的最流行的架构规范。这个平台已经拥有很好的技术支持和服务,它的多层架构受到大型Web开发者的青睐,是解决企业应用
随着人们出行需求的大幅增加和各类交通工具数量的迅速增长,对轨迹数据进行分析和挖掘开始受到广泛的关注和重视。得益于智能交通系统在各大城市的普及应用,大量的车辆轨迹数
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务
随着智能手机等移动终端的兴起,移动互联网正在慢慢地改变人们的生活和习惯。基于位置服务(LBS)的应用作为移动互联网的一个重要组成部分,是每一个移动终端上必备的应用程序。
云计算作为一种新的信息技术,为海量数据的分析和处理带来了全新的视野。它是一种商业计算模型,将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存
轨迹可以看作是移动对象随着时间的变化在空间中留下的印迹。近年来,随着民用GPS(全球定位系统,Global Positioning System)等定位设备在移动终端上的广泛使用以及基于位置服务
二十一世纪以来,中国互联网行业得到了蓬勃的发展,网民规模也逐年攀升。微博是近年来互联网上越来越流行的消遣方式,上到政商名流,下至普通百姓,皆乐在其中,微博已逐渐变成了许多人