论文部分内容阅读
近年来,随着互联网的迅猛发展,信息传播成为互联网交流的主要方式。互联网广告,作为新的信息传播方式,给互联网的发展产生的深远的影响的同时,也成为大部分互联网企业盈利的主要方式之一。互联网公司广告业务中的千次展示期望收入eCPM(expected Cost Per Mille),是衡量营收的重要量化指标之一,表现为点击率和点击价值的乘积,而点击价值在广告投放之初就已经确定,所以点击率就成为特别重要的参数。准确预估点击率对广告主来说,提高了广告商品的宣传和推广;对于广告平台商来说,可以获取更多的收益;对于广大用户来说,可以提高用户体验,可以更好的针对性的获取广告信息。本文主要研究基于展示广告的点击率预估模型。不同于传统的搜索广告,展示广告的点击数据更加稀疏,长尾效应也比较明显,且在点击率预估的时候需要同时考虑离散特征和连续特征这两种不同形式,导致点击率的准确预估比较困难。针对上述问题,为了更高效和准确地预估出展示广告的广告点击率,论文提出模型组合的思想,即在特征提取阶段建立不同类型的决策树使曝光数少的长尾广告和新广告可以得到充分的训练;同时针对两种形式的特征,将连续特征通过决策树来离散化,然后和离散特征组合编码输入到FM模型来得到高阶特征,最终输入到LR模型来进行训练。论文在模型设计和实现的基础上,实现原型系统,并选用业界常用的逻辑回归LR(Logistic Regression)、因子分解机FM(Factorization Machine)、梯度提升决策树GBDT(Gradient Boost Decision Tree)等模型进行功能和性能实验进行评估,功能上主要依据线下AUC(Area Under Curve)的大小和线上的点击率值对比进行综合判别,性能上则主要依据模型迭代时间,整体训练时间、CPU占用比等性能指标来判断。实验结果表明,论文提出的组合模型可以更好的满足业务需求,较之传统的预估模型更加准确。