论文部分内容阅读
近年来,在线社会网络迅速发展,成为大量用户沟通交流和分孚信息的重要平台,引起国内外研究者的关注。最初的研究集中在朋友关系,但是朋友关系难以体现信任或者亲密程度。为了区分用户间的强弱关系,一些工作根据用户间的留言,分析留言关系。留言关系仅出现亲密朋友间,数据量少。浏览指访问用户的主页。根据用户间的浏览行为,可以建立浏览关系。和朋友关系相比,浏览关系能够体现用户间真正的联系;和留言关系相比,浏览关系更加流行,数据量更多。一些社会化应用可以利用浏览关系,解决实际问题。需要研究浏览行为,深入理解浏览关系,指导在线社会网络及其应用的开发。另外,通过分析浏览行为,可以了解信息传播的途径。但是浏览行为一般不显式地在用户页面留下记录,难以收集完整的数据。我们设计方法爬取、整理浏览数据,然后深入分析浏览行为。我们根据用户间的浏览行为,建立浏览关系图并进行分析。最后,我们分析浏览关系图在实际应用的效果。 转发是推动信息传播的重要机制。用户看到有意思的内容,转发网页的地址,自动推荐给所有朋友。随着大量信息传播,用户收到许多朋友转发的网页,面临信息过载的问题。为了对收到信息进行排序,需要研究影响用户的因素。发布者制造网页,传播者把网页推荐给用户。本文比较发布者和传播者的作用,发现影响用户行为的主要因素。另外,本文分析浏览和转发的关系,深入理解转发的行为特征。 在线社会网络吸引恶意攻击。一些攻击者注册大量虚假用户,形成虚假团体,发布垃圾广告,或者抬高目标用户的影响力。现有工作主要识别虚假用户。真正可怕的事情是大量虚假用户勾结,组成虚假团体,然后统一发动攻击。但是,先前研究很少分析虚假用户之间的关系,更没有找到虚假用户背后的团体。本文首次提出基于虚假团体的识别方法和自动验证方法。 本文的主要贡献包括以下几个方面: (1)发现浏览行为特征及对信息传播的影响:首先,浏览关系是非对称的,说明信息传播不是对称的。其次,浏览关系覆盖的朋友比例较低,大量朋友间没有信息传播。第三,陌生人是来访者的重要组成部分。信息不仅传播给朋友,也传播给陌生人。最后,热门用户的高人气不是仅靠发布信息、结交朋友等方式获得。 (2)发现浏览关系图的特征和在实际应用的效果:浏览关系图的特征介于朋友关系图和留言关系图。在社会化应用中,浏览关系图的效果和其他用户关系图的效果明显不同。基于朋友关系图的模拟实验未必很好反映社会化应用的真实效果。 (3)发现影响转发的因素,以及转发和浏览的关系:首先,传播者比发布者对用户转发行为的影响更大。传播者的推荐时间比发布者的发布时间更重要。另外,以前采纳传播者的推荐网页数量可以预测用户未来的行为。然后,本文发现转发和浏览没有必然关系。这说明网页的摘要越来越重要。通过阅读摘要,用户获取信息并转发网页,不需要浏览网页。 (4)设计虚假团体的识别与验证方法。首先,提出了基于虚假团体的识别方法,不仅发现虚假用户,而且找出虚假用户所属的团体。然后,提出虚假团体的自动验证方法,节省了人工检查的时间。