论文部分内容阅读
随着在线社交网络技术的快速发展,网络社交已经成为大多数人必不可少的生活方式。在利益的驱动下,针对社交网络的攻击也变得越来越频繁。与单个用户相比,由多个用户合谋发起的Sybil攻击破坏性更强。Sybil用户团体特点是组织性和结构性都很强,团体内的用户会几乎同时段对相同目标店铺发起Sybil攻击,这种Sybil攻击能够在较短时间内对目标店铺声誉评分造成巨大变化,声誉评分急剧上升或是下降取决于Sybil活动的雇佣者是店铺本身还是其竞争对手。无论结果如何,都对正常的市场秩序造成了损害。因此需要一种有效的识别在线社交网络中Sybil攻击的方法。本论文主要研究了如何有效识别社交网络中的Sybil攻击的算法。本文以用户评价类社交网站大众点评网为研究对象,设计了基于改进的逻辑回归算法的识别社交网站的Sybil攻击的方案。首先爬取大众点评网上一段时间内用户对排名靠前商家的评论数据,获得了用户评价数据集。数据的采集用到了网上现有的采集工具。其次对获取的数据集进行了数据清洗工作,包括对数据集里面的缺失值、异常值、重复数据等脏数据进行处理。获得可以使用的评价数据集,为接下来的特征分析、模型构建和实验验证等工作做了准备。然后对数据特征进行了分析研究,主要是用户属性特征和用户行为特征,包括用户等级、用户对店铺的总体评分和服务环境等分项的评分情况、用户是否为会员、评价时间、评价获得他人的点赞数量和他人回复的数量等特征。对这些特征的结构进行了分析处理,研究了各个特征的数据分布情况。通过增加用户行为属性的分析,可以有效构建Sybil攻击识别模型。因为识别社交网站Sybil攻击可以简化为将所有用户进行分类,识别出用户为正常用户或者是Sybil用户。而逻辑回归算法非常适合用来做分类问题,所以构建了基于逻辑回归算法的识别社交网站Sybil攻击的模型。为了防止出现过拟合,对算法进行了改进,加入了正则项。将处理过的数据集分为训练集和测试集,对构建的模型进行了训练。通过实验,验证了改进的逻辑回归算法能够更好地识别Sybil用户。