论文部分内容阅读
社交网络的方便快捷共享特性,使其成为人们生活中不可分割的一部分。目前使用社交网络展示自己、与好友交流、获取最新资讯已成为人们的一种习惯。然而,社交网络在带给人们各种便利的同时也吸引了攻击者的目光,成为攻击者获取利益的新平台。攻击者通过在社交网络中创建虚假帐号以及劫持正常帐号(我们统称为异常帐号)来发布广告、色情、钓鱼等恶意消息以及执行恶意点赞、批量关注等行为来获取利益,这些恶意行为严重影响威胁到正常用户的隐私信息安全、使用体验以及社交网络平台自身的信誉体系。针对这些问题,我们展开了在线社交网络中异常帐号检测的工作,重点研究在线社交网络中新出现的Photo Spam攻击方式的检测,并取得了如下一些主要成果:(1)分析总结了目前在线社交网络中异常帐号检测的研究工作。将异常帐号的生命周期分为创建、发展、应用三个阶段,然后根据异常帐号的表现形式将不同称谓的异常帐号统一在同一个框架中;总结了目前异常帐号检测研究的实验方法,包括数据获取方式、数据标识方式和结果验证方式;在此基础上深入分析了社交网络中新的攻击方式Photo Spam,分析了Photo Spam的攻击过程和攻击策略,并对比了Photo Spam与传统Spam,发现与传统Spam攻击相比,Photo Spam更难被检测到而且对正常用户的危害更大。(2)提出一种专门针对Photo Spam帐号的检测方案。Photo Spam是攻击者为了绕过社交网络现有检测系统的新式Spam攻击,具有Spam信息的存储与传播分离的特性,在攻击过程中有两类行为方式不同的Spam帐号参与。目前对Photo Spam的检测方案都是根据帐号行为方式进行检测,无法将两类Spam帐号都检测到。针对这一问题,我们首次提出了一种专门针对Photo Spam帐号的检测方案。首先通过对Photo Spam攻击的分析构造了基于用户信息和基于内容两方面的特征;然后利用这些特征设计了有监督学习的检测方案,通过包含2,046个帐号的数据集训练成为专门针对Photo Spam帐号的分类器,我们的分类器能够检测全部类型的Photo Spam帐号;最后将训练后的分类器应用到包含有85,148个帐号的真实数据集中,共检测到5,756个Photo Spam帐号,检测正确率为97.05%。(3)提出一种针对Photo Spam帐号的轻量级迭代检测算法。社交网络为了保护正常用户的个人信息安全和使用体验,需要在有限的时间内降低Spam帐号的比例,而目前采用数据挖掘的检测方案要对所有用户都进行深入检测,将耗费大量的时间和机器成本,无法满足这一现实需求。针对这一问题,我们首次提出一种针对Photo Spam帐号的轻量级迭代检测算法LIDA。LIDA包括目标筛选和内容检测2个步骤,通过目标筛选根据已知Spam帐号获取更多可疑帐号,通过内容检测对可疑帐号进行深入检测判断是否的确为Spam帐号。LIDA只对可疑帐号进行深入检测,避免了对社交网络中所有用户都进行检测的问题,实现了对Photo Spam帐号的轻量级检测。通过人人网的4次迭代实验,共检测到9,568个Spam帐号,检出率为18.84%,比基于数据挖掘的检测算法更加高效。(4)提出一种针对社交网络中Spam相册的检测方案。目前检测Photo Spam的方案都是针对Spam帐号进行检测,检测依据主要是帐号的恶意行为,因此需要Spam帐号存在一定时间之后才能够检测到,而在此期间Spam帐号的恶意行为已经对正常用户造成了危害,所以针对Spam帐号的检测方案滞后于Spam攻击,无法有效保护正常用户。针对这一问题,我们首次提出一种针对Spam相册的检测方案。首先基于Spam相册和正常相册的差异构造了12个提取及时且计算高效的特征;然后通过这些特征设计了针对Spam相册的检测模型;利用包含2,356个相册的数据集训练形成Spam相册分类器,实验表明能够正确区分测试集中100%的Spam相册和98.2%的正常相册;最后将检测模型应用到包含315,115个相册的真实数据集中,共检测到89,163个Spam相册,正确率达到94.2%。