基于混合模型的互联网广告点击率预估研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:Susan616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展进程的不断推进、互联网用户规模的不断扩大和科学技术的不断提升,互联网广告由于其传播范围广且不受时空的限制等自身具备的诸多优势在广告行业不断鼎新,互联网广告也被看作目前最稳定的商业模式,各大搜索引擎平台、社会化网络平台、短视频平台等企业的大部分收入来源都是广告,而广告也已经成为部分网络公司的核心变现模式。在互联网广告的投放系统中,广告按点击来收取费用是当前比较常用的费用结算方式,即广告主需要为每个用户的单次点击支付给平台一定的广告费用。而点击付费在广告推荐系统中的核心体现则为点击率的预估,因此在互联网广告推荐系统中广告的点击率预估是一项核心技术。近年来受新冠疫情的冲击,一方面国内大环境不好使得广告主们逐渐减少广告的资金投入,另一方面疫情也使得中国的网民规模即用户流量达到新高度。在这种局面下,如何优化互联网广告预估模型、提高互联网广告点击率的准确性,从而帮助广告主在有限的广告预算下实现精准人群触达、提高投放广告的转化率就显得尤为重要。另外广告点击率预估的原理是根据用户的基本信息和其历史行为数据、广告的基本信息等特征再结合各种算法模型去预测用户点击广告的概率,但是由于广告数据自身存在的高维、稀疏、数据量大、实时性强、特征复杂度高等特点,广告点击率预估模型的准确率和效率至今仍存在瓶颈。基于以上背景与问题,本文通过研究点击率预估模型的发展史,分析比较目前国内外主流模型的优缺点,借鉴前人模型融合的思想,提出一种将GBDT模型、FM模型和神经网络模型等主流模型融合的混合模型,使得模型能够在重组有效特征的前提下同时学习低阶特征和高阶特征,从而一定程度上提升模型的性能,增强模型的可解释能力、提高模型的准确率,也希望通过提高广告点击率预估模型的准确率来优化互联网广告推荐系统的排序机制,实现互联网广告的精准投放,保证互联网广告平台用户体验的同时兼顾广告主的投入产出比和平台的收入,形成一个健康的广告生态。本文的核心工作内容包括以下四个方面:1、了解广告点击率预估模型的发展史,分析比较目前国内外主流模型的优缺点。通过对广告点击率预估模型发展史的研究,发现目前的主流模型GBDT+LR可以充分学习特征的低阶关系,但是没有考虑特征间的相互关系。FM模型考虑了特征的二阶线性组合,模型性能要优于线性模型,神经网络模型能拟合高阶非线性关系,非线性拟合能力足够强。学习GBDT模型、FM模型和神经网络模型相关理论基础和技术,设计本文提出的混合模型的模型结构。2、对本文使用的数据集展开探索性分析和预处理工作。在数据探索性分析中,分别研究了因变量是否点击的类别分布,自变量广告点击率和展示量分布,用户特征、日期、广告位与点击率的关系。在数据预处理过程中,分别对本文的数据集开展数据缺失处理、数据异常处理、采样处理和训练集测试集的划分工作。其中缺失值采用随机森林模型来进行填补,对广告展示量和点击率异常的数据直接予以剔除,采样处理中采用SMOTE算法来平衡样本。此外还对数据集中的特征进行了连续型变量标准化处理和离散型变量编码处理。3、对本文所提出的混合模型进行参数调优。对混合模型中GBDT层的学习率(learning_rate)、最大迭代次数(n_estimators)、树最大深度为(max_depth)、叶子节点数(num_leaves)、叶节点上的最小数据量(min_child_sample)、特征子采样比例(feature_fraction)和正则化参数(lambda_l1、lambda_l2)采用网格搜索法进行参数调优,对神经网络隐藏层中的隐藏层大小和数量的组合、Dropout(随机失活)的比例、Epoch的数量和嵌入层中的嵌入向量维度取值采用单一变量法进行参数调优,经过参数调优后选择最佳参数拟合模型。4、对模型进行训练与评估工作。将本文提出的混合模型与广告点击率预估中的经典模型LR、GBDT、FM和Deep FM进行横向对比,验证本文提出的新模型的优势。在模型效果验证阶段,采用Log Loss(损失函数)和AUC值两个评价指标进行模型效果评估,实验数据表明,混合模型在本文选取的两个评价指标上的表现要优于目前常用的模型。除了模型间的横向比较外,也验证了使用GBDT特征重组对模型性能的影响,实验结果表明加入GBDT特征重组层后模型性能会有一定程度的提升。
其他文献
根据古生物化石的形态结构破译其功能,是重建古生物生活方式的重要内容,具有重要的古生态学研究意义。但是,由于化石保存不完整、缺乏可对比的现生类群等因素,其形态功能的研究通常是定性的推测,缺乏定量分析的工作。得益于古生物数字化的快速推进,通过建立三维模型,计算流体力学(computational fluid dynamics简称CFD)能够实现化石形态与功能的定量分析,对验证现有假说具有重要作用。刺细
学位
真核多细胞藻类作为地球生态系统的重要组成部分,其起源和演化得到了广泛的关注和研究。埃迪卡拉纪陡山沱期和寒武纪第3–5(乌溜)期藻类化石有丰富的文献记录,而寒武纪幸运期(第1期)藻类化石少有报道,为深入认识这一时期海洋生态系统营养结构造成了困难。宽川铺生物群产出于陕南寒武系纽芬兰统宽川铺组,其中保存了大量三维立体磷酸盐化的微体化石,如小壳化石、动物胚胎、蓝细菌以及藻类等,为研究寒武纪早期海洋动物门类
学位
股票市场是一个受众多因素影响的复杂系统,能在一定程度上反映着经济的繁荣与衰退。股票市场变动趋势的预测分析是金融、管理和统计学领域的研究热点问题之一,针对来自于股票市场的数据特点,研究者提出了各具特色的预测模型,从传统时间序列预测方法到如今的各种深度学习算法,越来越多的研究者投入到股票市场变动趋势的研究中。股票市场上股价变动趋势的预测在宏观和微观方面都具有重要的现实意义,宏观方面,对股票市场变动趋势
学位
近年来,北京市乃至全国的人口老龄化程度都在不断加剧,人口老龄化的背后是巨大的养老压力,在如此严峻的养老压力下,机构养老作为一种形式新颖、潜力较大的养老方式越来越受到社会和政府的关注。然而,现有养老机构的数量能否满足老龄化人口的养老需求?其空间分布又是否科学、合理?本文从以上两个问题出发,探究北京市养老机构空间分布现存的问题,并结合北京市最新养老服务规划要求,提出完善北京市养老机构空间布局的相关对策
学位
新元古代末期全球性的“雪球事件”之后,地球环境发生了重大变化。此时的海洋出现明显分层结构,大气氧含量也发生了急剧增加,含氧量的升高使得地球表层海水被彻底氧化,为多细胞藻类的爆发式辐射及后生动物的起源演化提供了有利条件。本文通过对井研—犍为地区金石103井寒武纪早期地层的系统采样和深入研究,在纽芬兰统麦地坪组中发现了大量三维磷酸盐化精细保存的微体生物化石组合,在第二统第三阶九老洞组中发现了保存完好的
学位
寒武和前寒武地层之间大不整合的广泛发育使得华北内陆经历了一定程度的准平原化。广泛出露于华北西南缘的辛集组或苏峪口组是华北板块显生宙沉积的第一套地层,平行不整合于埃迪卡拉纪东坡组之上,其沉积年龄被小壳化石限定为寒武纪第二世。辛集组底部发育典型的临滨相沉积,标志着华北板块有史以来最大海侵的开始。华北寒武纪底部的这套海侵沉积记录的碎屑锆石U-Pb年代学研究不仅能验证在准平原上是否发育不同的流域体系和可能
学位
作为世界第二大经济体,我国在经济飞速发展的同时也成为了世界第一大能源消费国和碳排放国。尽管我国正大力发展清洁能源,但目前我国的能源消费结构仍以“亲碳”的煤炭为主,这也导致我国的二氧化碳排放量一直居高不下。2020年我国提出“30·60”双碳目标,向世界宣示了中国实现节能减排的积极态度和坚定决心。在如此巨大的碳减排压力下,发展创新低碳经济、实现能源结构转型已成必然。经济绿色转型离不开绿色金融这一强有
学位
秦岭造山带经历了多期复杂的构造演化过程,其中早古生代时期是其演化过程的关键阶段,目前研究普遍认为早古生代由于商丹洋持续向北的俯冲,商丹断裂以北存在典型的“沟-弧-盆”体系。但是,对其东延地区—桐柏造山带早古生代时期的造山过程、构造格架和构造演化过程等问题仍然存在争议。目前的研究主要集中在秦岭造山带和桐柏造山带西段,而对介于桐柏与大别-苏鲁地区衔接位置的东段信阳地区的研究较为薄弱,对其在早古生代时期
学位
环境问题是目前各国普遍关注的重要问题,更是我国经济高质量发展中备受重视的焦点议题。企业不加约束的生产行为是引发环境问题的主要原因之一,如何促进企业绿色转型是目前亟待解决的问题之一。在此背景下绿色信贷应运而生,政府要求将企业披露的环境信息纳入金融信贷配给的考察因素,要求银行有意识地减少对节能环保尚未达标企业提供的信贷资金支持,进而从资金源头上遏制重污染企业的进一步扩张同时引导其向绿色生产企业转型。尽
学位
近年来,随着地球化学分析技术的快速发展,越来越多的非传统稳定同位素指标在地学的众多研究领域中展现出广阔的应用前景。其中镁同位素指标在地球表生地质过程研究中应用广泛,尤其在示踪大陆硅酸盐风化方面具有巨大潜力。本文通过对国际大洋发现计划(International Ocean Discovery Program;IODP)第363航次于澳大利亚西北岸外陆架上U1483站钻取的岩芯进行沉积物粒度、镁同位
学位