大型在线社会网络的用户行为测量与分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:safafaffaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线社会网络迅速发展,成为大量用户沟通交流和分孚信息的重要平台,引起国内外研究者的关注。最初的研究集中在朋友关系,但是朋友关系难以体现信任或者亲密程度。为了区分用户间的强弱关系,一些工作根据用户间的留言,分析留言关系。留言关系仅出现亲密朋友间,数据量少。浏览指访问用户的主页。根据用户间的浏览行为,可以建立浏览关系。和朋友关系相比,浏览关系能够体现用户间真正的联系;和留言关系相比,浏览关系更加流行,数据量更多。一些社会化应用可以利用浏览关系,解决实际问题。需要研究浏览行为,深入理解浏览关系,指导在线社会网络及其应用的开发。另外,通过分析浏览行为,可以了解信息传播的途径。但是浏览行为一般不显式地在用户页面留下记录,难以收集完整的数据。我们设计方法爬取、整理浏览数据,然后深入分析浏览行为。我们根据用户间的浏览行为,建立浏览关系图并进行分析。最后,我们分析浏览关系图在实际应用的效果。  转发是推动信息传播的重要机制。用户看到有意思的内容,转发网页的地址,自动推荐给所有朋友。随着大量信息传播,用户收到许多朋友转发的网页,面临信息过载的问题。为了对收到信息进行排序,需要研究影响用户的因素。发布者制造网页,传播者把网页推荐给用户。本文比较发布者和传播者的作用,发现影响用户行为的主要因素。另外,本文分析浏览和转发的关系,深入理解转发的行为特征。  在线社会网络吸引恶意攻击。一些攻击者注册大量虚假用户,形成虚假团体,发布垃圾广告,或者抬高目标用户的影响力。现有工作主要识别虚假用户。真正可怕的事情是大量虚假用户勾结,组成虚假团体,然后统一发动攻击。但是,先前研究很少分析虚假用户之间的关系,更没有找到虚假用户背后的团体。本文首次提出基于虚假团体的识别方法和自动验证方法。  本文的主要贡献包括以下几个方面:  (1)发现浏览行为特征及对信息传播的影响:首先,浏览关系是非对称的,说明信息传播不是对称的。其次,浏览关系覆盖的朋友比例较低,大量朋友间没有信息传播。第三,陌生人是来访者的重要组成部分。信息不仅传播给朋友,也传播给陌生人。最后,热门用户的高人气不是仅靠发布信息、结交朋友等方式获得。  (2)发现浏览关系图的特征和在实际应用的效果:浏览关系图的特征介于朋友关系图和留言关系图。在社会化应用中,浏览关系图的效果和其他用户关系图的效果明显不同。基于朋友关系图的模拟实验未必很好反映社会化应用的真实效果。  (3)发现影响转发的因素,以及转发和浏览的关系:首先,传播者比发布者对用户转发行为的影响更大。传播者的推荐时间比发布者的发布时间更重要。另外,以前采纳传播者的推荐网页数量可以预测用户未来的行为。然后,本文发现转发和浏览没有必然关系。这说明网页的摘要越来越重要。通过阅读摘要,用户获取信息并转发网页,不需要浏览网页。  (4)设计虚假团体的识别与验证方法。首先,提出了基于虚假团体的识别方法,不仅发现虚假用户,而且找出虚假用户所属的团体。然后,提出虚假团体的自动验证方法,节省了人工检查的时间。
其他文献
正电子发射断层扫描(Positron Emission Tomography,PET)是当前最高层次的核医学影像技术,借助扫描前注入活体内的放射性核素标记的示踪剂进行显像,能够在分子和细胞水平上反
现代社会生活中,视频信息逐渐成为人们传递信息的一种重要途径,可以足不出门便可观澜天下事成为现代生活的重要特征。视频信息作为一种重要的信息传递途径,以其直观性强等特点越
航天器电子设备是航天器的重要组成部分,其系统设计及设备制造需要耗费大量人力、物力成本,航天器电子设备具有伴随航天器发射后到被回收之前的不可维修性,使用地面测试系统
随着网络新闻的蓬勃发展与随之而来的信息爆炸,人们一方面可以轻易获取到广泛的资源,丰富自己的生活;另一方面,读者获得关键信息的时间成本也随之增加。如何从海量的网络新闻
所谓云服务,是指利用计算机硬件技术、软件技术、信息安全技术、网络技术、空间信息技术、通信技术、虚拟化技术、集群技术和存储技术以及并行计算等技术,将大量分布在网络中的
近年来,三维模拟技术已广泛应用于各个领域。本文主要研究基于场景的仿真应用。如场景的漫游,基于三维环境的工程仿真,自然现象的模拟,社会活动的模拟,灾害的仿真模拟(如水灾、火
近年来,随着计算机网络和信息技术的快速发展,网络安全也越来越成为人们关注的焦点。每年木马的数量都在迅速的增加,在各类非法程序中占据着最大的比重,而由木马程序所造成的
随着语义技术的兴起,目前的互联网上产生了越来越多的语义数据。这些语义数据蕴含了大量的不同领域的知识,在互联网范围内相互关联,形成了一个规模巨大的人类知识库。在特定领域
动态随机访问存储器(DRAM,Dynamic Random Access Memory)由于其较高的存储密度,较快的访问速度,成熟的制造工艺,作为主存储器(又称内存)被广泛地应用到计算系统的存储层次(Memory
重新网格化方法是将非规则结构的三角网格表示为规则结构的网格数据,这种方法既有利于网格数据的压缩,又可降低几何数据采样的非一致性.几何图像是一类规格化的重新网格化方