基于词向量和因子分解机神经网络模型的CTR预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nanfangjituan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的飞速发展,广告载体逐渐由传统的报刊、杂志等媒介向网络转移,计算广告由此衍生出来。根据广告展现给用户的形式,可以将其分为展示广告和搜索广告,本文只对搜索广告进行研究。预测互联网广告点击率(Click-Through Rate,CTR)是十分重要的主题,因为搜索引擎的大量收益都来自于广告。将广告以合适的方式推荐给用户能提高点击事件发生的概率,进一步提升赞助商广告的知名度。CTR的预测准确度会影响搜索引擎、用户和赞助商(广告主)三方的利益。搜索广告通常以每次点击单价(Cost Per Click,CPC)的竞价模式在结果页面上排序,在这种竞价模式下,排序的标准按照广告主的竞拍单价与点击率乘积进行降序排列。因此,提高搜索广告CTR的预测准确度是有意义的。  基于统计的方法预测点击率是最直观且简单的,点击率等于广告被点击的次数除以该广告总的展示次数。这种方法最大的缺点是冷启动问题,即无法计算一个没有历史的广告的点击率,使用机器学习算法来建模这个问题是目前最通用的方法。在训练模型之前,需要且必须完成的工作是数据预处理和特征工程,特征提取的好坏直接影响模型的预测准确度。不同广告日志的原始特征差别甚大而且特征主要由人工设计。因此,针对不同的广告数据集应该采取不同的特征提取方案。显然,在这种方式下特征工程的工作量太大,目前还没有一种通用的特征提取方法来解决这个问题。本文通过词表示的思想,使用实值词向量表示原始特征,结合神经网络语言模型的训练算法,提出了一种基于4层神经网络的自动学习特征上层表示的模型。  在预测CTR的问题上,Field-aware Factorization Machines(FFM)模型在kaggle的两个公开的广告数据集(AVAZU和criteo)上效果最佳。通过分析,我们发现FFM模型之所以能够取得很好的效果,原因在于模型在线性表达式的基础上增加了特征与特征的乘积关系,并通过分解因子为向量的方法,进一步提升模型性能。本文结合因子分解的思想,将神经网络的最后一个隐层单元的输出作为FM模型的输入,并使用改进的反向传播算法学习所有参数,得到最终的模型,称为基于词向量和因子分解机的神经网络(Word-embedding-based Factorization Machines Neural Network,WFMNN)模型。  为了证明WFMNN能够自适应地学习多个广告数据集上的特征,我们基于商业搜索引擎日志(CSEL)和AVAZU两个数据集进行实验。结果表明,在CSEL上WFMNN比目前最佳的方法(FFM)在AUC指标上提高了1.9%(相比于其他模型,提高了1.9%~12%);在AVAZU上,相比于其他常用模型,WFMNN在AUC上提高了0.7%~2.5%,然而,FFM的AUC比WFMNN多出2.5%。可能是因为不同数据集本身的分布不同,导致了WFMNN能够更好地拟合CSEL数据,而对于AVAZU数据集而言,FFM模型能拟合的更好。但不论如何,我们提出的WFMNN比其他模型效果都更好。
其他文献
近年来,在道路路产设施的维护管理中,道路信息采集主要由人工完成,采集到的信息相互孤立,缺乏联动性,管理人员无法从海量数据中最大限度地挖掘所需信息,从而无法对道路设施进
随着软件业的不断发展,尤其是网络应用的快速发展,软件安全问题已经成为计算机安全领域中最值得关注的一个问题。计算机安全领域不断涌现新的突破和新的发展,这些新的技术给
数据广播是目前移动环境中一种有效的数据访问方式。服务器将热点数据通过公共信道周期性地发送出去,用户侦听广播信道并及时获取自己感兴趣的内容。与传统的点对点数据访问
学位
图像分割是图像处理中的一项关键技术,其目的是将目标和背景分离,为后续处理提供依据,其结果直接影响到其后的信息处理过程。然而到目前为止,对图像分割的效果好坏,还没有一
面对信息化社会层出不穷的海量级信息,信息系统已成为信息处理必不可少的强有力的工具,信息系统的安全也越来越受到人们的广泛重视。而作为信息系统底层支持的操作系统的安全
在当今信息时代,计算机网络在人们的日常生产、生活中扮演越来越重要的角色。一旦网络中发生故障,总是要求网络工程师和网络管理人员能迅速、准确的对故障的类型以及故障的根
煤矿井下环境恶劣,给煤矿的安全生产和矿工的身心健康带来很大威胁。为了煤矿安全生产和管理以及矿工健康,有必要对矿井环境条件和矿工生命体征进行监控。无线传感器网络是一
互联网体系架构正面临着严峻的安全和管理挑战,迫切需求具备可信性和可控性特征的新架构。已有的网络体系结构要么是基于边缘论和面向非连接的设计思想,导致分组传输路径不可
随着Internet技术的快速发展,基于B/S结构的高校教务管理系统如何在使用过程中避免非法修改、事后否认、非法截取等行为已经直接威胁到高校教务系统的使用安全。现代密码理论
学位