基于集成学习与深度序列模型的移动广告点击欺诈检测方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zzy101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的全民普及,广告行业依靠移动互联网定向精准、传播及时、形式多样等特点快速发展。但是按广告点击次数(Costper click,CPC)的付费模型,被网络黑产恶意利用,消耗广告主预算,严重影响了移动互联网广告行业的发展。此外,在广告点击欺诈场景中存在众包以及激励型点击欺诈,即通过将有奖赏的点击任务分发给真人用户或者在应用中激励用户去点击不感兴趣的广告,由于是真人点击,检测难度更大。本文针对移动广告平台下广告代理商点击欺诈的检测任务,使用基于集成学习与深度序列模型的方法对该任务的不同场景进行建模。挖掘用户行为模式差异,提高检测精度。本文的主要工作如下:(1)基于用户点击序列,提出Fb2vec(Fraud behavior to vector)算法。使用Item2vec挖掘用户点击序列中代表用户喜好的代理商嵌入向量,在损失函数中根据用户点击行为模式差异提出两个策略,分别是“用户行为模式捕捉”、“单次点击优化”。Fb2vec算法训练提取的向量特征通过向量可视化对比和多组对照实验,证明了该算法的有效性,能够显著提高欺诈检测准确率至0.08%~1.19%。(2)设计了基于集成学习的点击欺诈检测方法,并提出基于弱分类的合成过采样算法,通过预训练获得难分类样本再对其进行合成采样,解决 SMOTE(Synthetic minority oversampling techique)算法只针对少数类样本采样从而泛化性不高的问题。实验结果表明准确率比基于少数类的合成过采样方法在集成学习检测中提升了 0.21%。(3)针对众包以及激励型广告点击欺诈场景,本文以点击序列作为基础,首先挖掘了 Fb2vec特征和四条序列,分别是点击流量序列、单次点击(该用户只点击过一次)流量序列、用户两次点击间隔和三次点击间隔的序列。然后设计了基于LSTMAttention的点击欺诈检测模型,并在此基础上提出宽度&深度结构序列模型(Wide&Deep sequence model,WDSM)。对照实验结果表明,时间粒度越细模型的检测准确率越高;本文所提出的深度序列模型WDSM,在不同时间间隔上的检测结果相较于集成学习模型准确率提升了 0.73%~7.59%。
其他文献
学位
学位
作为国民经济中最具活力的科技型中小企业,是我国科技进步的主要推动者,是产业结构调整的主要领导者,是技术创新的主要承载者,在促进我国经济发展、扩大就业等方面发挥着不可替代的作用。目前,我国经济正处于转型升级的关键时期,市场竞争日趋激烈,技术创新已成为科技型中小企业维持其持续竞争优势的不竭源泉。在动态化的市场竞争中,虽然自主创新是引领科技型中小企业持续发展的第一动力,然而很多企业在实际经营过程中,为了
学位
学位
学位
学位
卷积神经网络(CNN)作为一种专门处理具有网格状结构数据的神经网络,在图像数据(二维的像素网格)领域中具有广泛应用。卷积神经网络中的卷积核数量可以在准确性和计算效率方面对卷积神经网络的性能产生重大影响。然而,确定卷积核数量的现有方法主要通过手动过程进行,手动选定过程存在潜在过拟合,不稳定性和低效率等问题。卷积核数量动态适配方法用来解决卷积核数量设定后CNN存在的过拟合或者随机设定的问题,具有重要的
图像传输技术以其信息量大、容易储存、内容丰富以及诸多优点得以飞速发展,目前,已经广泛应用于社会的各个领域。在智能交通实时监控系统、自动导航系统等的第一视觉是反映在
伴随着市场竞争和产品生命周期的不断缩减,企业独立进行创新活动已经不能保证企业拥有持续的市场竞争力,企业开始探索与其他组织进行创新合作来提高自身的创新能力。这种创新合作的参与者及其所处环境可以被视为一种生态系统,因此被称为创新生态系统。为了在激烈的市场竞争中赢得主动权,一些大型企业开始着手开发自身企业为核心的企业创新生态系统,并意欲以此为基础,在激烈际市场竞争中获得持续的竞争力保障。并且随着通信网络