论文部分内容阅读
随着信息技术的飞速发展,互联网逐渐成为人们接收信息的主要渠道,用户的很多互联网行为比如点击、浏览、购买等信息会被记录下来,这些信息中蕴含了用户的一些需求和偏好信息,如何从这些信息中挖掘有用信息,准确的预测用户对广告商品的点击率将直接影响互联网公司广告收入以及平台用户体验。同时点击率预测也是推荐系统、信息检索中的一个重要环节。因此如何高效的完成点击率预测引起了学术界和工业界的广泛关注。点击率预测问题就是在给定的上下文的情况下,预测某一用户是否会点击某一广告或者是点击的概率。针对这种问题,现有方法大部分是在特征学习方面做工作。工业界主要通过分析业务,结合专家知识去寻找有用特征信息,使用简单模型完成预测。这种方法得到的特征数量有限,成本很高,无法捕获真实数据内部的复杂信息。学术界开始探索使用深度学习来解决点击率预测问题,但目前存在模型复杂度高,训练困难,解释性较差的问题。针对上述问题,本文从特征学习的角度出发开展了研究,通过深度学习来挖掘真实数据中的复杂模式,以解决点击率预测问题。本文的主要工作包括:(1)提出了稀疏数据下的基于注意力的深度因子分解机模型,该模型通过将低阶特征组合之后送入到深度神经网络中学习高阶非线性特征,减轻了深度神经网络的学习压力,降低了模型的复杂度,之后采用注意力机制筛选出影响预测结果的关键特征信息,增强了模型的解释性。(2)提出了可以融合文本、图片特征学习的深度预测模型,除了点击率预测问题中常见的类别特征外,模型还可以对文本信息进行学习,挖掘用户,广告产品之间更丰富的关联信息。弥补了现有预测模型中无法有效利用文本、图片信息的缺陷。(3)提出了一种基于行为序列的深度预测模型,对用户点击行为中的序列依赖性建模,用于表示用户兴趣,之后使用注意力机制捕获用户兴趣的变化趋势。将得到的序列特征与通过深度神经网络学习到的高阶特征联合完成点击预测。综上所述,本文对稀疏数据下的点击率预测问题进行研究和实验,提出了基于注意力的深度因子分解机模型、融合文本信息的深度分解机模型以及基于行为序列的深度预测模型,并通过实验验证了所提模型的预测性能。