论文部分内容阅读
随着互联网的高速发展,在线广告系统在我们日常生活中扮演着越来越重要的角色,并且成为了广告主进行品牌推广和产品营销最有效的方法,准确的预测点击率是在线广告系统最重要的一个环节,因为提高广告点击率预估的准确率不仅有益于广告商的品牌推广,还可以提高用户体验。很多传统点击率预估方法如逻辑回归已经被应用在广告点击率预估系统上并取得了很好的效果,而且在工业界也已经大规模部署。近年来深度学习技术在自然语言处理和计算机视觉任务上取得了不错的成绩,如文本蕴含、文本摘要和图像生成等领域。随之一些深度学习模型也被应用在个性化推荐系统和点击率预估系统上,而且模型结构颇为相似,都是先对特征向量进行降维,然后再使用非线性操作提取特征组合,最后通过深度神经网络继续寻找特征与点击率之间的非线性关系。本文的主要研究内容从以下三个方向进行:(1)基于传统机器学习方法的多模型融合点击率预估任务研究。本文首先在两个大规模真实广告点击率数据集上进行特征工程工作,并使用GBDT算法提取高阶特征组合,然后使用成熟的传统机器学习模型如LR模型和FM模型进行单模型点击率预测,并在单模型的基础上进行模型融合,得到模型融合方法的点击率预估结果。(2)基于传统深度学习方法的点击率预估任务研究。本文使用简单的深度神经网络和循环神经网络作为点击率预估的模型,并尝试结合了之前人工特征工程提取的特征,通过特征哈希与特征拼接等手段得到深度神经网络的输入,计算了传统深度学习模型方法的点击率预估结果。(3)基于Multi-Embedding层的深度学习点击率预估模型研究。文本提出了一种新型的深度学习点击率预估模型模板,其中包含基于传统Multi-Embedding的深度神经网络模型和卷积神经网络模型,以及基于双线性Multi-Embedding的深度神经网络模型和卷积神经网络模型。其中双线性过程主要用于特征提取与高阶特征组合,替代了使用FM等二阶特征组合方法。本文还设计了一种结合了聚类和稀疏位标记方法的模型用于解决冷启动问题。并在IPin You和Avazu两个大规模真实数据集上进行实验,实验结果表明,基于Multi-Embedding的点击率预估模型在结果上要优于目前主流的深度CTR模型。