论文部分内容阅读
随着互联网时代的飞速发展,广告载体逐渐由传统的报刊、杂志等媒介向网络转移,计算广告由此衍生出来。根据广告展现给用户的形式,可以将其分为展示广告和搜索广告,本文只对搜索广告进行研究。预测互联网广告点击率(Click-Through Rate,CTR)是十分重要的主题,因为搜索引擎的大量收益都来自于广告。将广告以合适的方式推荐给用户能提高点击事件发生的概率,进一步提升赞助商广告的知名度。CTR的预测准确度会影响搜索引擎、用户和赞助商(广告主)三方的利益。搜索广告通常以每次点击单价(Cost Per Click,CPC)的竞价模式在结果页面上排序,在这种竞价模式下,排序的标准按照广告主的竞拍单价与点击率乘积进行降序排列。因此,提高搜索广告CTR的预测准确度是有意义的。 基于统计的方法预测点击率是最直观且简单的,点击率等于广告被点击的次数除以该广告总的展示次数。这种方法最大的缺点是冷启动问题,即无法计算一个没有历史的广告的点击率,使用机器学习算法来建模这个问题是目前最通用的方法。在训练模型之前,需要且必须完成的工作是数据预处理和特征工程,特征提取的好坏直接影响模型的预测准确度。不同广告日志的原始特征差别甚大而且特征主要由人工设计。因此,针对不同的广告数据集应该采取不同的特征提取方案。显然,在这种方式下特征工程的工作量太大,目前还没有一种通用的特征提取方法来解决这个问题。本文通过词表示的思想,使用实值词向量表示原始特征,结合神经网络语言模型的训练算法,提出了一种基于4层神经网络的自动学习特征上层表示的模型。 在预测CTR的问题上,Field-aware Factorization Machines(FFM)模型在kaggle的两个公开的广告数据集(AVAZU和criteo)上效果最佳。通过分析,我们发现FFM模型之所以能够取得很好的效果,原因在于模型在线性表达式的基础上增加了特征与特征的乘积关系,并通过分解因子为向量的方法,进一步提升模型性能。本文结合因子分解的思想,将神经网络的最后一个隐层单元的输出作为FM模型的输入,并使用改进的反向传播算法学习所有参数,得到最终的模型,称为基于词向量和因子分解机的神经网络(Word-embedding-based Factorization Machines Neural Network,WFMNN)模型。 为了证明WFMNN能够自适应地学习多个广告数据集上的特征,我们基于商业搜索引擎日志(CSEL)和AVAZU两个数据集进行实验。结果表明,在CSEL上WFMNN比目前最佳的方法(FFM)在AUC指标上提高了1.9%(相比于其他模型,提高了1.9%~12%);在AVAZU上,相比于其他常用模型,WFMNN在AUC上提高了0.7%~2.5%,然而,FFM的AUC比WFMNN多出2.5%。可能是因为不同数据集本身的分布不同,导致了WFMNN能够更好地拟合CSEL数据,而对于AVAZU数据集而言,FFM模型能拟合的更好。但不论如何,我们提出的WFMNN比其他模型效果都更好。