基于张量分解的实时竞价广告响应预测方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:daliangengbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迅速崛起的实时竞价广告实现了需求方由“媒体”购买转向“受众”购买,实现了更精准的广告投放,成为数字广告未来发展的大趋势。需求方平台是实时竞价交易系统的核心,为了实现精准广告投放,需求方平台必须具有极高的流量评价、流量选择和自主控制能力,因此需求方平台的技术和算法的难度最大。需求方平台最主要的差别是出价策略,出价直接决定着需求方平台的流量基本单位成本,决定着利润。点击率和转化率预测是直接影响出价质量的重要方面,如何准确地估计点击率和转化率成为实时竞价广告中需要解决的核心问题。本文重点研究实时竞价系统中,面向需求方平台如何提升广告点击率和转化率的预测性能,以提升需求方的投资回报率。需求方进行广告响应预测主要面临着四个方面的严酷挑战。第一,数据的稀疏性太高导致预测结果不可靠;第二,实时竞价过程对点击率和转化率预测算法的时间效率要求高;第三,用户、上下文和广告三者之间的交互作用特别复杂导致预测难度大;第四,训练数据集类别严重不平衡导致预测准确率低。本文基于张量分解模型研究各种挑战的解决策略并寻求有效地综合解决方案。具体来说,本文的主要工作包括以下四个方面:第一,为了解决实时竞价广告响应预测面临的严峻的数据稀疏问题,进行了基于异构信息融合的广告响应预测方法研究。首先尝试从用户生成标签中挖掘新特征来扩展用户特征,然后分析了基于特征的矩阵分解模型集成附加信息的常用策略,面向张量分解模型进行借鉴和改进,针对实时竞价中不同类型异构信息的性质和特点研究了不同的融合策略,提出了基于张量分解模型的异构信息融合综合解决方案和具体实现方法。最后,本文在三个不同的数据集上通过实验对比了在不同级别的特征融合情况下,结果显示我们的融合策略能够较好地提升矩阵分解模型和传统张量分解模型进行广告响应预测的性能。第二,传统的基于Tucker分解和CP分解的模型很难在预测性能和预测时间效率上同时满足实时竞价广告响应预测的需要,为了改进传统张量分解模型的预测时间效率,进行了基于隐语义立方分解模型的广告点击率预测方法的研究。首先深入剖析了隐语义矩阵分解模型与矩阵奇异值分解的内在关系,然后基于高阶奇异值分解是矩阵奇异值分解向高阶张量的扩展的思想,借鉴隐语义矩阵分解模型的建模原理,使用截断的高阶奇异值分解,采用直接在观测数据上建模的方法,提出了隐语义立方分解模型。隐语义立方分解模型具有较少的模型参数,实现简单,训练速度快。本文通过实验分析了隐语义立方分解模型的训练和预测时间效率,并和常用的张量分解模型进行了预测性能对比,实验结果表明隐语义立方分解模型既保证了较低的预测时间复杂度又保证了较好的预测性能。第三,针对用户、上下文和广告之间复杂的交互关系,为了同时获得三者之间全交互作用下的最佳特征表示,进行了基于全交互张量分解模型的点击率预测方法研究。首先分析了两对交互张量分解模型的基本思想,深入剖析了它与传统张量分解模型之间的关系,并分析了它解决广告响应预测问题的局限性。然后,提出了能够克服这种局限性的全交互张量分解模型,这种模型具有全交互关系表示能力,充分挖掘了用户、上下文和广告三者之间复杂的两两全交互关系。最后,通过实验对比了基于异构信息融合的传统张量分解模型、隐语义立方分解模型和全交互张量分解模型的预测性能,实验结果表明本文提出的新模型在保证较低的时间代价情况下取得了最优越的预测性能。第四,为了解决训练样本类别不平衡问题,同时利用点击和转化反馈信息进行了基于三元组排序优化学习的广告响应预测方法的研究。首先将广告响应预测问题形式化为排序问题,将广告展示按照响应类别的正确排序作为优化目标,提出了基于转化、仅点击和未点击的三元组排序优化学习策略。然后分析了三元组排序优化和成对比较排序优化的关系。接着,给出了基于随机梯度下降的三元组排序优化学习算法以及使用该算法实现逻辑回归、矩阵分解和全交互张量分解模型训练的方法。最后通过实验对比和分析了三元组排序优化学习、成对比较优化学习和逐点回归优化学习策略的预测性能。实验结果表明本文提出的基于三元组排序优化学习策略不仅同时提升了点击和转化预测的性能,而且能够有效地解决转化、仅点击和未点击广告展示的三分类排序问题。总之,本文面向需求方平台,基于张量分解模型,针对实时竞价广告中的点击率和转化率预测面临的严峻数据稀疏问题、较高的预测时间效率要求、复杂的三维交互关系以及严重的类别不平衡问题,提出了相应的解决方法和技术方案,有效地提升了广告响应预测性能。
其他文献
囊性纤维化跨膜电导调节因子(cystic fibrosis transmembrane conductance regulator,CFTR)是一种典型的cAMP依赖的氯离子通道,在所有与分泌和吸收相关的上皮细胞内表达,CFTR的突
指出了菟丝子属植物是入侵性极强的杂草,近年来在城市园林绿地中发生日趋严重,对菟丝子属植物的常见种类、形态特征及其习性进行了整理,并对其的防控方法进行了总结,以期为菟
船桥碰撞事故常有发生,为评估已建桥梁桥墩的抗船撞性能、指导防撞方案设计,以株洲湘江一桥通航孔8~10号桥墩为对象,建立有限元模型计算了桥墩在受到单位水平撞击力时最危险截面
家庭服务机器人作为机器人应用领域的重要组成部分,由于其在执行家务劳动时具有任务种类繁多且不可预知等特点,因此对于算法的适应性以及学习能力提出了严格的要求,而如何通
目的:探讨加强护理干预措施对重症监护室(ICU)谵妄患者预后的影响。方法:选取2011年4月至2015年6月汕头市中心医院确诊治疗的ICU谵妄患者64例,依据随机分配原则分为对照组和
语言表达的能力中最容易被调动和表达的便是具有比喻性质的语言,这种生动有趣的表达手段,无论是在口头交际还是书面书写都常常被使用,比喻修辞在日常生活中的运用也是广泛而
文章首先对校企合作背景下高等院校课堂教学改革的意义进行了分析,然后对我国当前高等教育课堂教学中存在的问题进行了探讨,最后作者针对这些问题提出了几点改善策略,即培养学生
针对中年级学生识字写字中存在的错别字频繁出现、书写质量较差、课文朗读字音不准等现状问题,本文提出三个策略:准确定位,正确认识识字教学的作用;教学到位,多样的识字教学
基于围岩质量计算、柱状图数字化与重组、围岩结构诊断、采动应力作用后围岩结构演化等研究成果,采用'工程要求、基本结构、演化结构”为一级指标,提出了巷道围岩稳定性
<正>2015年,安徽省铜陵市交通运输部门委托中国科学院建筑设计研究院编制了《铜陵市创建绿色交通城市(2015-2017)实施方案》,并以此为指导,在优化运输结构、转变发展方式、加