论文部分内容阅读
互联网时代中,广告作为互联网公司盈利的一种十分重要的手段或方法,点击率预估作为广告等业务的核心研究问题,在互联网领域中占有重要的地位。点击率预估技术在过去的几年里被大数据技术所改造并驱动,被产品反复导向并进化,工业流程发展的迅速直至成熟。在线广告如今是一个价值超过数十亿美元的行业,已经成为机器学习领域赚钱的成功案例之一。近年来,人工智能、深度学习在计算机各类领域都取得了众多的研究进展,使得各大互联网企业和科研机构开始更多的探索深度学习技术在广告点击率预估场景下的作用,取得了大量令人赞许的成果。伴随着云计算技术的推进,整个互联网领域的各种产品导致了数据规模成喷井式增长,伴随其发展的是各种数据挖掘、机器学习技术,这些技术可以从大规模数据集中准确、效率地构造模型,挖掘出对公司或社会有价值的信息。赞助的搜索广告、广告上下文、展示广告和实时竞价拍卖都严重依赖于模型的学习能力,通过这些模型能够准确、快速、可靠的费率预测广告点击率。但是这种问题也衍生出了规模问题,即使在10年前,这种级别的规模问题也几乎是无法想象的。典型的工业模型可以利用相应的大特征空间,对每天数十亿的事件进行预测,然后从大量的数据中学习。对于庞大的训练数据极大的限制了模型的扩展性,很多有用的特征或者更复杂的模型无法使用,因此也衍生出多种采样策略。不同规模的数据对模型选择的影响是巨大的,传统矩阵分解方法在预测、推荐系统等领域也都有着广泛的投入应用,主要原因是因为其算法的性能能够满足部分业务需求且算法具有高扩展性。但是面临着大数据环境,人们可以获得更多的上下文信息,而传统的矩阵分解方法在上下文信息利用上是缺失的,面对这种挑战提出了因子分解机模型并广泛流行。由于广告点击率预估为衡量广告被用户点击可能性大小的指标,广告点击率的预估的最终目的是:提高用户搜索体验以及提高广告对于潜在客户的曝光率以提高营收,以达成共赢。传统的广告点击率预估模型准确率低的同时还需要构造大量人工特征,耗费大量的时间和人力资源。为解决这个问题,本文基于因子分解机及其优化的模型上,设计出一个具有良好预估准确率且无需人工构造特征的模型。通过因子分解机在高度稀疏的情况下学习到低阶特征,深度神经网络则能够学习到高阶特征,并融合提升树以增强准确性和鲁棒性。实验表明,本文设计的模型相对于因子分解机及其衍生模型或传统模型具有更高的准确性和可用性,具有解决广告点击率预估问题的实际能力,无论是从探索如何改进因子分解机模型结构还是从提高CTR预估模型准确性的角度上来说,本文的研究和探索都是具有实际意义的。