基于集成学习方法的广告点击率预测研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:yedixx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告点击指的是用户对广告产生了点击行为,点击事件的发生取决于用户信息、广告信息、用户浏览广告时的上下文信息。通过分析营销平台积累的广告历史数据,探索用户点击广告时的规律,并选取合理的预测方法解决广告点击率预测问题,对营销平台合理呈现广告、广告商推广自身品牌等具有重要意义。本文根据营销平台所提供的广告历史数据,对已有数据集进行可视化分析与处理,探索不同属性与广告点击间的关系。在此基础上,通过缺失值填充等预处理方式结合特征构建获得完整有效的广告历史实验数据集。针对过多的特征会导致预测模型训练耗时过久且效果变差的现象,采用Light GBM模型结合递归特征消除法思想进行特征选取,得到了简化的最终实验数据集。研究相关预测算法,重点研究了逻辑回归算法、XGBoost算法和Light GBM算法,并使用确定的实验数据集进行了单项预测模型的实现与调优,实验结果表明,同一特征在XGBoost预测模型和Light GBM预测模型中其重要性不同,三个单项预测模型的AUC值和Log Loss得分不同,表明了单项预测模型的准确度还有提升空间。在单项模型实践基础上,设计了基于平均法和基于Stacking的集成预测模型,对模型进行实现发现,两种集成预测模型的准确度较单项预测模型都有提高,其中基于Stacking的集成预测模型效果最好,其相对最优的单项预测模型在AUC得分和Log Loss指标的百分位上分别提升了1.36%和1.20%。因此,将基于Stacking的集成预测模型作为最终的广告点击率预测模型。
其他文献
强子结构及其相关问题一直是粒子物理理论和实验研究的前沿热点。通过大量实验,人们已确认夸克及胶子是组成强子的基本粒子,且它们都不能从强子中分离出来,此即强相互作用的
“营商环境就是生产力”。我国于2014年3月将“营商环境”写入了政府工作报告,明确营商环境建设的重要性。自2018年以来,国务院针对优化营商环境颁布了一系列文件,体现了国家高度重视营商环境建设。近年来,南平市税收营商环境取得了显著进步,但依然存在相应问题,比如税收法治力度有待加强、政策宣传和落实不到位、税率税负值得进一步关注、纳税服务水平有待提高等。因此,调研南平市税收营商环境建设的现状,分析税收
智能手机的普及和移动互联网的发展促进了 QR码在广告宣传行业的广泛使用,越来越多的广告商青睐于把QR码印刷在宣传材料上,以吸引广告受众访问相应的宣传网站,从而有机结合线
铁磁性材料缺陷的无损检测方法较多,相比较而言,漏磁检测方法因检测灵敏度高、速度快,检测过程操作简单、成本低,可检测表面及内部缺陷等优势而被广泛应用。对缺陷的漏磁检测
水源热泵系统近年来在我国的应用发展很快,它可以缓解能源供应紧张,是一种具有广阔发展前景的空调技术,但部分地区在应用时不考虑本地区的实际情况,存在一定的盲目现象。本课
食源性纳米粒子因其独特的物理化学性质受到广泛的关注。除了以食品添加剂形式加入食品中的人工纳米粒子以外,食品加工过程,也能够促使食品组分之间发生复杂相互作用,最终导
固态金属间的连接已成为诸多行业普遍应用的板料连接手段。随着科学技术的不断发展,新材料、新零件的大量涌现,传统金属板间的连接方式不再满足现代生产的效率与工艺需求。固
随着我国经济的飞速发展,信息化智能化的不断普及,地理信息系统已经应用于各行各业中。空间数据的对比、统计和分析的应用已深入到许多领域,如道路交通管理维护、市政市容管
在过去几十年,随着对碱土金属元素的结构和化学性质越发深入的认识,科学家合成了一系列+2甚至+1氧化态的有机碱土金属化合物,这些碱土金属化合物由于具有更低的价格和更小的
在城市供水系统中,泵站是整个系统正常运转的枢纽,也是主要的耗能单元。目前我国大多数供水泵站仍采用人工经验的调度模式,不合理的运行方式不仅造成较大的能源浪费,可能还会导致管网漏水、爆管等问题。因此,为了降低泵站能源消耗,减少管网事故,泵站的优化调度研究是十分有必要的。本文围绕泵站优化运行的目标,以M市供水区域为研究对象,进行了城市用水量预测、供水管网水力模型分析和泵站优化调度研究。主要工作如下:1.