论文部分内容阅读
随着智能手机的全民普及,广告行业依靠移动互联网定向精准、传播及时、形式多样等特点快速发展。但是按广告点击次数(Costper click,CPC)的付费模型,被网络黑产恶意利用,消耗广告主预算,严重影响了移动互联网广告行业的发展。此外,在广告点击欺诈场景中存在众包以及激励型点击欺诈,即通过将有奖赏的点击任务分发给真人用户或者在应用中激励用户去点击不感兴趣的广告,由于是真人点击,检测难度更大。本文针对移动广告平台下广告代理商点击欺诈的检测任务,使用基于集成学习与深度序列模型的方法对该任务的不同场景进行建模。挖掘用户行为模式差异,提高检测精度。本文的主要工作如下:(1)基于用户点击序列,提出Fb2vec(Fraud behavior to vector)算法。使用Item2vec挖掘用户点击序列中代表用户喜好的代理商嵌入向量,在损失函数中根据用户点击行为模式差异提出两个策略,分别是“用户行为模式捕捉”、“单次点击优化”。Fb2vec算法训练提取的向量特征通过向量可视化对比和多组对照实验,证明了该算法的有效性,能够显著提高欺诈检测准确率至0.08%~1.19%。(2)设计了基于集成学习的点击欺诈检测方法,并提出基于弱分类的合成过采样算法,通过预训练获得难分类样本再对其进行合成采样,解决 SMOTE(Synthetic minority oversampling techique)算法只针对少数类样本采样从而泛化性不高的问题。实验结果表明准确率比基于少数类的合成过采样方法在集成学习检测中提升了 0.21%。(3)针对众包以及激励型广告点击欺诈场景,本文以点击序列作为基础,首先挖掘了 Fb2vec特征和四条序列,分别是点击流量序列、单次点击(该用户只点击过一次)流量序列、用户两次点击间隔和三次点击间隔的序列。然后设计了基于LSTMAttention的点击欺诈检测模型,并在此基础上提出宽度&深度结构序列模型(Wide&Deep sequence model,WDSM)。对照实验结果表明,时间粒度越细模型的检测准确率越高;本文所提出的深度序列模型WDSM,在不同时间间隔上的检测结果相较于集成学习模型准确率提升了 0.73%~7.59%。