论文部分内容阅读
随着互联网技术的不断发展,互联网广告作为其发展的产物应运而生。提高广告点击率的预测精度是计算广告领域一项非常重要的任务。点击率预测的精度越高,提供给用户的信息将越准确,商家的宣传效果将会越好,进而会提高媒体平台、DSP公司和商家的利润。目前,点击率预测模型已经引起广大研究人员的关注。但是,随着进一步研究可以发现,点击率预测模型的构建仍然存在以下几个方面的问题:(1)数据稀疏问题:每天数以百计的广告呈现在人们的眼前,但在这众多的广告中只有一小部分的广告存在有用的点击数据。因此,蕴含用户偏好的历史点击记录相当稀疏。数据稀疏导致不能准确计算用户点击某个广告的概率,进而不能根据广告的内容实现对用户的精准投放。(2)可扩展性问题:在构建广告点击率预测模型的过程中,牵扯到的广告和用户不计其数。随着互联网的快速发展,广告和用户的数量呈指数级增长,如何更新点击率预测模型、准确的预测广告的点击率成为预测过程中面临的重要挑战。(3)冷启动问题:点击率预测模型是基于已有的广告数据进行训练的,但对于那些没有历史点击数据的新广告而言,构建的预测模型没办法很好的预测。与此同时,用户群体不相同,缺失新用户的属性特征对于构建模型而言也是巨大的挑战。(4)特征挖掘问题:广告数据特征之间的关系很复杂,并且不是简单的线性关系,因此,广告点击率预测的过程中挖掘用户点击行为背后的隐藏特征交互至关重要。有些特征交互很容易被发现,可以采用人工特征工程的方式来挖掘特征之间的关联。但是大多数的特征交互都隐藏在数据中难以被挖掘。因此,有效的将特征交互进行建模成为挑战。针对存在的这些问题,国内外的研究人员提出了很多的解决方案。如何充分的捕捉数据特征本身内部复杂的关系,深度学习技术必不可少。近年来,深度学习技术迅猛发展,在多个领域取得了突破性的成果,包括语音处理、计算机视觉、自然语言处理等。本质上来说,深度学习的概念源于人工神经网络的研究,它可以有效的发现抽象的特征,将特征进行组合,捕捉隐藏的特征交互。深度学习的强大功能在于它可以构建复杂的函数,将数据做非线性变换。利用深度神经网络的特点,可以建立基于深度学习的广告点击率预测模型。由于克服了传统点击预测模型的障碍和具有更准确的预测率,基于深度学习的点击率预测获得了更多的关注。因此,研究基于深度学习的广告点击率预测具有重要的理论研究价值和应用价值。本文以国家自然科学基金为依托,针对目前点击率预测研究工作中存在的问题,对基于深度学习的广告点击率预测方法进行深入研究。本文第一种方法是在模型的基础上加入了数据的降维降噪处理,因此称之为点击率预测方法。而后三种主要探讨的是预测模型,所以主要介绍的是所提出的三种模型。本文的主要工作如下:1.提出了一种基于堆栈自编码神经网络的点击率预测方法影响点击率预测的特征很多,但并不是考虑的特征越多,预测效果就会越好。广告数据中真正有用的信息并不是很多,没用的信息对最终的预测结果会造成一定的影响。本文提出一种基于栈式自编码神经网络[27]的点击率预测模型,模型集成了改进的因式分解机模型和栈式自编码器。针对广告数据的特点,对相同类型的数据之间进行聚类,对不同类型数据之间使用张量分解的方法对数据进行降维。在此基础上,该模型将改进的因式分解机模型用于低阶特征交互,栈式自编码神经网络挖掘高阶信息交互,充分挖掘特征之间的关系,提高广告点击率的预测率。实验结果表明,该模型在准确率和损失等方面都取得了显著的提升。2.提出了一种基于注意力机制的点击率预测模型上述方法可以很好的发现潜在的特征,充分的挖掘特征之间的交互,但是不同特征对预测的贡献都是相同的。因此,本文在上文的基础之上,基于注意力网络去更好的发现不同的特征对预测结果的影响,对于预测结果影响较大的特征赋予较高的权重,对于预测结果影响较小的赋予较小的权重,很好的区分不同特征的重要性。与此同时,仍然对数据进行降维处理,挖掘特征之间的交互。实验结果表明,注意力机制能够很好的区分特征的重要性,并证明了使用注意力机制可以提高点击率预测的准确性。3.提出了一种基于用户兴趣的点击率预测模型之前的模型只考虑了用户和广告的一些属性特征,没有将用户的兴趣作为点击率预测中的一个重要因素,因此,提出了一种基于用户兴趣的点击率预测模型,该模型可以从用户的历史行为中发现用户的兴趣偏好。首先通过嵌入层,将高维稀疏特征数据进行嵌入;然后通过双向门控循环单元来处理用户的行为数据,发现用户的潜在兴趣;同时,用户和广告的其它数据通过堆栈自编码神经挖掘特征交互,发现隐藏的特征;最后,将得到的用户兴趣特征与其它特征进行全连接,输出点击率的预测结果。通过实验可以发现,所提出模型比传统的不考虑用户兴趣的点击率预测模型效果要好。4.提出了一种基于用户兴趣演化的分层注意力模型在获得用户兴趣的过程中,本文发现用户的兴趣具有两方面的特点,一个是用户的兴趣具有多样性,另外一个是用户的兴趣是随着时间的推移动态变化的。因此,本文在前一个模型的基础上提出了基于用户兴趣演化的分层注意力模型。首先,在用户兴趣提取层,使用双向长短时记忆网络来发现用户的兴趣,与此同时,增加了辅助损失来监督每一时刻用户的兴趣。其次,兴趣演化层利用兴趣提取层所得到的用户兴趣序列,使用具有局部注意力机制的长短时记忆网络来捕捉用户兴趣的动态变化。兴趣演化层有效地建模与目标广告相关的兴趣演化过程。最后,通过全连接层来得到预测的结果。通过数据分析和实验结果表明,该模型与现有流行的模型相比较,有效的提高了点击率预测的准确率。本文从点击率预测过程中存在的问题出发,提出了四种广告点击率预测模型和方法。第一种方法涉及本文第二章内容,针对广告数据的特点对数据进行降维,同时将改进的因式分解机模型用于低阶特征交互,栈式自编码神经网络挖掘高阶特征交互,提高点击率预测的准确度。第二种模型涉及本文第三章内容,使用注意力网络去更好的学习不同的特征对预测的影响,对于预测结果影响较大的特征赋予较高的权重,很好的区分不同特征的重要性,准确预测广告的点击率。第三种模型涉及本文第四章内容,从用户的历史行为中发现用户的兴趣偏好,将用户的兴趣作为点击率预测中的一个重要因素。发现的用户兴趣特征与其它隐藏特征进行全连接,进行点击率的预测。第四种模型涉及本文第五章内容,在考虑用户兴趣的同时捕捉用户兴趣的动态变化,有效的建模与目标广告相关的兴趣演化过程,提高点击率预测的准确率。综上所述,本文针对点击率预测过程中存在的问题进行探讨。为了提高点击率预测的准确度,利用深度学习技术建模,并且通过理论及实验证明了本文研究工作的有效性。