论文部分内容阅读
在线广告,又称网络广告、互联网广告。是指在网络媒体上投放的广告。在线广告在过去的二十多年里飞速发展,已经形成了以人群为投放目标,以大数据技术为核心驱动力、产品化为导向的投放模式,有着成熟完整的工业流程。大数据在其中的应用,也就是广告推荐系统,主要应用方法是借助机器学习模型来进行点击率预估,点击率预估地越准确,广告投放地也就越精准,真实的点击率越高,收益也就越高。在线广告推荐系统中的点击率预估实质是一个机器学习的模式识别问题。算法模型的性能和表现在广告推荐问题中至关重要。域感知因子分解机,英文简称FFM模型,是2016年提出的一种新的隐向量学习的非线性模型,域感知因子分解机在稀疏条件下对复杂特征有着出色的学习能力,具有较高的应用价值。因此,本文将域感知因子分解机模型应用于解决广告推荐系统中的点击率预估问题。本文使用Avazu数据集,进行了填充率调查、特征频次统计、穿越信息排查、数据类型和编码检查等步骤以保证数据的可用性,再对不同特征进行了相应的特征处理,对于类别特征进行了one-hot encoding独热编码,对于连续数值型的特征进行了等距分桶后离散化,并根据重要的离散值字段,聚合了计数、频次的统计值特征。对于缺失的类别id类特征,进行了双字段联合id进行填充。本文从三个角度进行了对比实验:从不同参数角度,对于域感知因子分解机,本文以“用户”、“广告”、“登录上下文信息”为域,专门构建三种域特征进行输入,并对较为重要的正则项系数l和隐向量个数k进行调参,以验证模型在不同参数下的表现。从不同算法角度,对于逻辑回归、支持向量机、因子分解机和域感知因子分解机模型,本文将处理后的离散值特征和连续值特征进行输入,对于集成学习的随机森林和梯度下降决策树模型,本文将频次统计中较低的离散值特征和连续值特征进行输入。从不同评价指标角度,本文同时验证了多个模型在准确率、对数损失和AUC值下的表现。本文使用Python语言编程,调用Scikit-learn、XGBoost、Light-GBM等工具进行逻辑回归、支持向量机、随机森林、梯度提升决策树、因子分解机和域感知因子分解机的实验,并且采用Stochastic Gradient Descent方法进行求解。实验证明域感知因子分解机在多模型和多评价指标下的表现都取得了更好的效果。