基于有向图的社交网络欺诈用户检测方法

来源 :科学与财富 | 被引量 : 0次 | 上传用户:lrh791020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在线社交网络的sybil账户日益猖獗,网络攻击者利用欺诈账户进行各种恶意活动,严重影响了社交网络的正常秩序,危害了网络用户的个人隐私。现提出一种基于有向图的欺诈用户检测方法。该方法优化了已有的GANG算法。通过基于全局社会结构,建立新的马尔科夫随机场,并优化置信传播以优化检测精度。实验结果表明,优化后的GANG算法已有的算法更具有可扩展性和收敛性,且比基于无向图的检测方法精确度更高。
  关键词:有向图;社交网络;关联推定
  1 引 言
  近几年,在线社交网络发展迅速,如我国的微信、微博、QQ等,国外的 Facebook、Twitter 等。社交网络为人们提供了一个方便的、用来交流和分享的最佳平台,也因此受到利益的驱动,社交网站也吸引了很多网络攻击者。通过制造大量非法虚假身份,网络攻击者会制造各种恶意活动,如发布“三无”信息、发送虚假邮件,收集个人信息等影响网络中社交个体中继选择意愿,窃取社交个体隐私,严重威胁了社交网络和用户的安全。
  网络攻击者账户有较为明显的特征:通过前期大范围的发送请求消息,以求通过此举添加大量的合法网络用户为好友,为后续进行恶意网络攻击奠定基础。加之移动互联网时代的到来,网络的适用性越来越广泛,社交网络欺诈造成的恶劣影响也显著增加。
  为此,计算机界对应对网络欺诈用户检测提出了許多方案,这些方案一般都是基于一定的假设才能达到较好的效果,并且在实际应用中这些方案准确率较低,网络欺诈者较容易躲避。针对此种情况,本文优化了GANG方法,进而有效改善现有方案中的准确率低,易躲避的情况。
  2 相关工作和背景
  已有的检测方法中,有的利用无向的社交链接,这过度简化了现实世界在线社交网络的定向社交结构,大大限制了检测的准确度。在这项工作中,我们提出GANG,一种关于有向图的关联推定方法,用于检测在线社交网络中的欺诈用户。在GANG中,我们设计一个新的成对马尔可夫随机场来模拟有向社会图中节点的联合概率分布。该新型马尔科夫随机场具有欺诈用户检测问题的独特特性。如果反向的边(v,u) 不存在,我们称之为单向边(u,v) ,否则我们称之为双向边。如果两个用户通过双向边链接并且具有相同的标签,那么马尔可夫随机场会产生更大的联合概率。 但是,假设u 和v 通过单向边缘(u,v) 链接,例如,在Twitter上,u 跟随v ,但v 不跟随u 。如果u 是欺诈的或v 是正常的,那么单向边 是否存在不会影响马尔可夫随机场下的联合概率,否则边(u,v) 会使联合概率变大。这是因为欺诈用户可以跟随任意用户而不会被追踪,而普通用户可以被任意用户追踪而不会追踪他们。
  在GANG的基本版本中,我们使用置信传播(LBP)来估计给定实验数据集中每个二元随机变量的后验概率分布,并用它来预测相应用户的标签。然而,基本版本有两个缺点:1.它不够可扩展,因为LBP需要在每个边缘上维护消息,2.它不能保证收敛,因为LBP可能在循环图上振荡。因此,我们进一步优化GANG以解决这些缺点。我们的优化包括消除消息维护和通过简洁的矩阵形式逼近GANG,我们还得出了优化GANG收敛的条件。
  我们引入了一个新的成对马尔可夫随机场,马尔可夫随机场模拟所有u∈V 的所有二元随机变量xu 的联合概率分布。我们用xv 表示所有二进制随机变量的集合。我们提出的马尔科夫随机场如下:
  其中H(xv) 称为能量函数。(u,v) 或(v,u) 出现在H(xv) 中,但两者不会同时出现。
  使用置信传播(LBP)计算后验概率分布:
  在GANG的基本版本中,我们使用LBP来估计后验概率分布Pr(xv) 。 LBP在图中的相邻节点之间迭代地传递消息。即在第t次迭代中从v发送到u 的消息 是 :
  其中Γ(v)/u 是接收节点u 之外的v 的所有邻居的集合。该编码中每个节点通过最后一次迭代的传入消息转发结果,并基于与接收方的同质性强度将该消息适配到相应的接收方。当消息的变化在两次连续迭代中变得可忽略时LBP停止,或者它达到预定义的最大迭代次数T。LBP停止后,我们估计后验信念Pr(xv) 如下:
  这相当于
  消除消息维护
  GANG不够可扩展的主要原因之一是LBP在每个边都维护消息。 我们观察到LBP需要在边上维护信息的关键原因是当节点v 向其邻居u 准备消息时,它需要排除u 发送给v 的消息。因此,我们的第一个优化步骤是当v 准备其消息给u 时包括u 发送给v 的消息 .形式上,我们修改公式(3)如下:
  3 结构模型
  假设给出了一个有向社交图G(V,E) ,其中节点v∈V 代表用户,是用户的数┃V┃ 量,有向边(u,v)∈E 表示u 和v 之间的某种关系。例如,这种关系可能是u 在Twitter上跟随v ,在Facebook上u 向v 发送朋友请求, 或者u 在Facebook上接受来自v 的朋友请求。每个节点可以是欺诈性的或正常的。欺诈性节点包括垃圾邮件发送者,虚假用户和受损用户。
  定义(基于有向图的欺诈检测):假设我们被给予一个有向社交图和一个由标记的欺诈和正常节点组成的训练数据集。欺诈检测目的是预测社交图中每个剩余节点的标签。
  符号:如果边(v,u) 不存在,我们将边(u,v) 称为单向。我们用图中的E1 单向边表示,例如, 。 如果边(v,u) 也存在,我们称之为边(u,v) 双向。我们用图中的E2 双向边表示,即
  4 实验评估与结果分析
  首先,我们获得了一个Twitter的跟随者与被跟随者图表,其中包含41,652,230个用户和来自Kwak等人的1,468,364,884个边[4]。有205,355名用户被Twitter暂停,我们将其视为欺诈用户; 36,156,909个用户活跃,将其视为普通用户; 其余5,289,966个用户被删除,将它们视为未标记的用户。随机抽取500,000个标记用户作为实验集,并将剩余的标记用户视为测试集。   其次,我们从Fu等人的[5]中获得了一个包含3538,487个用户和652,889,971条有向边的新浪微博数据集。手工标记了随机抽样的2000名用户。其中,欺诈用户482名,正常用户1498名,未知用户20名。我们将欺诈用户和普通用户分成两部分;一个作为实验集,另一个作为测试集。表1显示了我们数据集的一些统计数据。
  表1 数据集统计
  数据集 Twitter Sina Weibo
  节点 4165230 3538487
  边 1468364884 652889971
  平均度 71 369
  我们将优化后的GANG算法与其他方法进行比较。
  我们考虑以下基于有向图的方法:TrustRank、DistrustRank、CIA和CatchSync。TrustRank、DistrustRank和CIA都是基于随机游走,而CatchSync会利用[3]进行测试。TrustRank和DistrustRank最初是为了检测基于超链接的欺诈网页而设计的,但它们可以用于检测在线社交网络中的欺诈用户。TrustRank仅利用实验数据集中标记的正常节点;DistrustRank和CIA本质上是一样的,他们只利用标记为欺诈的节点;而CatchSync不使用实验数据集。
  表2 有向图的各种方法AUC值的比较
  方法 Twitter Sina Weibo
  TrustRank 0.60 0.66
  DistrustRank 0.63 0.64
  CIA 0.63 0.64
  CatchSync 0.68 0.51
  GANG 0.72 0.80
  整体排名表现:我们首先使用AUC来衡量比较方法的整体排名表现。AUC可以解释为在测试数据集中,一个随机抽样的欺诈节点排名高于一个随机抽样的正常节点的概率。AUC越高,性能越好。表2显示了Twitter和新浪微博数据集上所有比较方法的AUC。我们观察到GANG在两个数据集上始终优于所有的比较方法。
  5 总 结
  为了防范社交网络中越来越多的欺诈用户的攻击,和随之带来的越来越恶劣的影响,本文设计的基于有向图的社交网络欺诈用户检测方法可以起到较好的作用——较高的识别率。此方法通过有向图的关联推定来检测社交网络中的欺诈用户。在GANG中,我们设计了一个新的成对马尔可夫随机场来模拟有向社会图中节点的联合概率分布。该新型马尔科夫随机场具有欺诈用户检测问题的独特特性。
  在实验结果的评估上,通过对比其他算法,结果显示在检测社交网络欺诈用户的识别率和准确性上,本文提出的优化算法检测效率最高,而其他四种算法为目前使用较为普遍的检测算法。因此,本文提出的优化算法可以更加有效的检测出社交网络中的欺诈用户,减少社交网络欺诈用户对社交网络和正常用户造成的危害和恶劣影响。
  参考文献:
  [1] 吴大鹏,司书山,闫俊杰,王汝言.基于行为特征分析的社交网络女巫节点检测机制[A].电子与信息学报,2017,39(9).
  [2] 周清清,陈志刚,黄 瑞,李 博,徐成林.在线社交网络Sybil账号检测[A].小型微型计算机系统,2017,(8).
  [3] J. Kleinberg, “Authoritative sources in a hyperlinked environment,”Journal of the ACM, vol. 46, no. 5, 1999.
  [4] H. Kwak, C. Lee, H. Park, and S. Moon, “What is twitter, a social
  network or a news media?” in WWW, 2010.
  [5] H. Fu, X. Xie, Y. Rui, N. Z. Gong, G. Sun, and E. Chen, “Robust
  spammer detection in microblogs: Leveraging user carefulness,” ACM
  Transactions on Intelligent Systems and Technology (TIST), 2017.
  作者簡介:
  吴彦芳,生于1996年12月,女,汉族,河南民权人,南京邮电大学本科在读,物联网工程专业.
  *【基金项目】本文系南京邮电大学2018年度大学生实践创新训练计划项目,项目编号XYB2018284
其他文献
摘 要:油田在持续地水驭开发过程中,会导致其含水越来越高,虽然如此,但其依然具有较高的可开采价值。为了提高油田的采收率,采取必要的稳油控水的技术措施,才能达到预期的生产效率。  关键词:高含水期;稳油控水;采油技术  引言  虽然我国石油资源含有量非常多,但是随着开采时间的不断增长,非常多的油田已经处于高含水期,这样就已经严重加重我国石油工业的紧张局面。为了更好地对这个问题进行解决,本文对石油地质
期刊
摘要:随着社会的进步以及城市化发展的不断加快,水资源及其利用在城市发展过程中所占据的地位已经越来越重要。一个现代化的城市,需要水的支撑和保障:一个生态型的城市,需要水去保证其可持续发展:一个文明发达的城市,需要水去灵动和美化。由此看来,提倡水利向城市发展,不仅是水利自身发展的需要,也是城市发展的必然选择,更是治水观念的进一步提升。  关键词:城市水利:现代化建设:治水思路  一、打造城市的水文化观
期刊
摘 要:水利工程的建设对于社会的稳定发展有着十分重要的意义,但是这一工程在修建过程中却易受到较多施工技术的影响而出现施工延期的情况。在这些施工技术中,较为重要的就是滑膜施工技术的运用,这一技术能够有效缩短施工期限,提高施工质量。本文主要就水利水电工程施工中滑模施工技术进行了介绍,希望能够为水利工程施工提供建议。  关键词:水利水电;工程施工;滑模施工技术  滑模施工技术本质上是一个模板浇筑技术,其
期刊
摘 要:在地勘单位长期工作中做好地质科技档案管理工作至关重要,做好地质科技档案管理与利用,能保障各类地质勘察工作全面开展。目前地勘单位地质科技档案管理工作中仍旧存在较多问题,比如管理模式落后、档案管理资金不足、管理人员能力较差、资源共享受限等,所以目前要结合地质科技档案管理中存在的各项问题采取科学化管理措施,便于地勘单位各项工作有序进行。  关键词:地勘单位;地质科技档案;管理策略  地勘单位地质
期刊
摘 要:以通过供暖行业的绿色转型机制设计减少污染与排放,减少空气中细颗粒物的含量,从源头防治雾霾为主线。研究徐州市雾霾的成因与分析、徐州市供暖行业现状,来探讨雾霾和供暖行业之间的相关性及互二者间的相互影响和制约,并最终提出从供暖行业角度入手的符合徐州市雾霾防治的解决办法,确立雾霾防治约束下供暖行业的绿色转型机制设计,从源头进行雾霾防治(以徐州市为例)。  关键词:雾霾防治,供暖行业,机制设计,徐州
期刊
摘要:当前全世界都处于大变革发展时期,不同国家文化交流活动也越来越频繁。我国同样处于社会转弄的关键时期,对于公路行业职工而言,其社会思想意识呈现出了多元化、多变化的现象。在复杂化的发展形势下,必须要加强公路职工的意识形态工作。与党的意识形态工作保持同一步伐,划清“四个重大界限”。在新形势下开展意识形态工作,需要围绕马克思主義为核心指导,并精准应用社会主义核心价值体系引领多样化的社会思潮。  关键词
期刊
摘 要:面对加工企业新制造环境的变化,传统的成本计算方法如不加以改进,将难以适应现代企业发展和成本管理的需要。于是作业成本法便应运而生。自上世纪70年代以来,高科技的发展比以往更加迅速,先进技术、装备被广泛而快速的应用于生产管理领域,企业劳动生产率也随之不断提高。在企业的产品成本中,直接材料、直接人工等直接支出逐渐降低,而制造费用这种间接费用随着生产自动化程度的不断提高,急剧的增加并呈现多样化,其
期刊
摘 要: 柱塞气举是间歇气举井最有效的生产方式 ,它能够减少气体穿过液体段塞所造成的滑脱损失 ,提高举升效率。柱塞气举影响因素分为动力、阻力和体积三大因素,利用柱塞气举动态模型分析了各种因素变化对柱塞气举的作用及其它们的限制条件。柱塞气举排水采气法是利用气井自身能量推动油管内的柱塞举水,生产过程中可以不动用其他生产设备,大大降低了生产成本。柱塞作为密封界面分开举升气体和液体,减少液体回落,防止气体
期刊
摘 要:硫磺沟煤矿大部分风门是自主加工,闭锁装置采用钢丝绳连接两道风门,中间配重(吊桶)的方式控制风门自动关闭,但是并不能联锁兩道风门,两道风门存在同时开启的可能,这就降低了矿井通风系统的可靠性,极易发生由于通风系统混乱,局部瓦斯超限的事故。我矿根据实际情况,购入了机械闭锁装置,但因两道风门之间距离较长,钢丝绳传动阻力大,该闭锁装置回力不足,不能实现两道风门闭锁作用。针对这一现状,我们采取增加质量
期刊
摘 要:随着科技的进步与发展,电子设备在现代社会已经成为一种普遍现象,计算机就是最明显的例子。计算机的普及给科技的发展带来了质的飞跃,现在人们的工作和生活都需要计算机的支持,计算机的发展从整体上提升了人们的生活水平。但也正是因为计算机在生活和工作中被运用的越来越广泛,所以计算机网络安全问题也受到很大的关注,在实际应用的过程中,不良因素的产生很容易造成网络安全漏洞的,给计算机使用者造成了很大的困扰。
期刊