论文部分内容阅读
在线广告点击率对搜索引擎服务提供商和广告商都是一个重要的量化指标。因此,在线广告点击率预测,是计算广告领域的关键问题之一。工业界与学术界都对点击率预测问题有持续的研究,各个搜索引擎服务提供商都建立了自身的点击率预测体系,可见本课题具有很强的理论研究价值和实际应用价值。
本文围绕点击率预测问题,进行了完整的研究方法建模。首先对搜索引擎在线广告进行特性研究,总结出五大特性;在此基础上,定义广告显式特征和隐式特征,进行相应特征提取;并将概率关系模型引入特征选择阶段,将特征分为与真实结果直接相关、间接相关、完全无关三类;然后引入因子分解机模型作为预测模型对广告点击率进行预测,输入端为进行特征选择后的实值特征向量;最后采用曲线下面积(AUC)对预测结果进行评价。
值得重点提出的是,在当前研究中,对于特征提取主要强调位置以及广告属性特征,缺乏考虑广告被触发的场景以及广告与用户检索词的联系;已有的基于广告类别特征提取预测广告点击率采用同一类别的广告点击率平均值直接对待预测广告进行预测,无法将广告类别与其他特征混合加强进行预测;对广告直接进行聚类也可以得到广告类别,但是这样只能得到广告的唯一类别标注(本文定义其为广告类别特征)。在线广告本身具有多主题性,单一类别标注在不同的用户检索行为下失去意义。由此,本文提出一种基于广告多类别特征的点击率预测方法:定义用户检索行为对广告的触发作用,通过间接聚类提取广告的多类别特征,将多类别特征输入预测模型——因子分解机中对点击率进行预测。实验结果表明,广告多类别特征明显提高预测准确率;并且多类别特征提取过程中使用的间接聚类方法不仅可以实现对广告的多类别标注,而且有效地降低大规模稀疏特征向量的维度,显著降低聚类时间成本。