基于多模型集成的在线广告转化率预估研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:dota1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代已经来临,传统行业向互联网转型不再是一个时髦的口号,积极主动地拥抱“互联网+”,不仅能提升自身的竞争优势,而且能赢得更多发展机会。对于广告行业,掌握了互联网和大数据技术,对在线广告不同场景下的转化率进行预测,并对其进行精准投放,一方面可以提升用户的平台使用体验,快速找到使用意愿最强的产品;另一方面可以提升广告主的投入产出比,挖掘其潜在客户。然而想要准确预测在线广告的转化率并非易事,主要原因在于在线广告的用户行为数据高度稀疏且正负样本分布不均衡,导致传统的机器学习模型预测表现不佳。基于上述背景,本文构造了基于特征工程的在线广告多维度特征体系,并结合集成学习的方法提出Light GBM+XGBoost+LR(Stacking/Blending)模型,以提高在线广告转化率的预测精度,具体内容如下:特征工程方面,首先从广告与用户特征的角度对数据集进行探索性分析与特征可视化,并讨论特征对转化率的影响;其次,进行了数据融合、数据清洗、离散特征one-hot转化、连续特征离散化等数据集的预处理;最后,从基础特征、稀疏特征、序列特征、转化率特征、组合特征等方面进行特征构建,形成一套总计836个维度的在线广告特征体系,以支持后续的转化率预估研究。模型构建方面,将XGBoost、Light GBM作为个体学习器,LR作为次级学习器,分别对模型进行Stacking、Blending集成,并通过实验验证了本文设计的集成模型比经典机器学习模型的预测效果更佳。进一步对数据的用户与广告特征进行K-means聚类,根据聚类结果分组检验模型预测效果,结果表明本文构建的集成模型在聚类样本上具有更好的表现。与常规的建模方式不同,该算法充分发挥了线性模型和树模型的优势,采用多个结构之间存在较大差别的模型进行融合,有效地降低了模型的过度拟合,从而增强了建模的普适性和精确度。本论文旨在为预测在线广告转化率提供一种更广泛的机器学习方法,无论是在理论上还是在实践中都有一定的应用价值。
其他文献
健康产业已成为世界上最大、发展最快的产业之一,对经济发展有着重要影响,引起了学术界的关注。国内健康产业存在研发和技术创新不足、相关法律法规不完善、缺乏专业人才等问题,应加大国家对健康产业的投资力度,培育扩大健康产业集群,积极促进健康产业的国际融合,不断提高我国健康产业体系构建水平,实现我国健康产业的良好发展,进而促进健康中国建设,维护好人民群众的切身利益与生命健康。
期刊
本文对实际背景下的微分方程系统进行稳定性分析。首先,针对新能源约束下的五维能源供需系统,得到了 τ=0时平衡点S0和S*稳定性的充分条件。其次,考虑到能源运输过程中存在时间延迟现象,建立了含时滞的五维能源供需系统,并分析了系统的动力学行为,给定系统参数,模拟了系统变化状态图。最后,建立了三维环境污染系统模型,对系统施加反馈控制,将系统由不稳定状态控制到稳定状态,通过改变反馈增益系数K,验证了反馈控
学位
日常中的一些安全隐患如跌倒、坠床等异常事件,会对人体造成一定的伤害,而老龄化和护理人员短缺的矛盾也在日益加大,如何获得对异常行为的实时反馈是提供及时帮扶、减少伤害的首要任务。传统监测离床行为主要基于接触式的辅助设备,常被安装在床体两侧或者患者的身下。辅助设备会带来护理不便、舒适度低、警报不及时等问题,便捷性和实用性难以满足需求。本文主要研究基于视频监控的离床行为识别问题,通过智能监控系统,采用人体
学位
网络用户的协作计算随着信息技术的发展变得越来越普遍,安全多方计算拓展了传统分布式计算以及信息安全的范畴,为网络协作计算提供了一种新的计算模式,对解决网络环境下的信息安全问题具有重要意义。目前,安全多方计算在许多方面都有重要的应用,已经成为了密码学中不可或缺的一部分。本文研究了曼哈顿距离的保密计算和点与多边形或多面体位置关系的保密判定,主要研究内容如下:(1)对于曼哈顿距离的保密计算问题,本文中的协
学位
变分积分子因其具有保辛、保动量等优良特性,故在模拟保守系统的运动时呈现出明显优势。对于非保守系统而言,由于非保守力的出现,变分积分子虽不再具有保辛特性,但仍能精确地追踪系统的能量演化。鉴于此,本文提出一种新的基于局部路径拟合的方法来构造受控Lagrange系统的变分积分子。除了系统化、程序化的构造过程,本文还对利用新方法所得到的变分积分子进行了误差分析并针对数值算法的精度给出了一般性的量化结论。最
学位
报纸
我国经济水平快速发展,带动各行各业飞速发展,各行业中出现了越来越多的龙头企业,也产生了众多各具特色的中小企业。目前,一些上市公司随着资本的不断发展壮大,开始不满足于自身行业内的提升,逐渐拓展其他行业市场。此举有利于自身发展,也有利于防范金融风险,因此越来越多的行业之间关系密切,行业内不同企业的联系也更加紧密。研究行业内股票之间的相依结构,有利于投资者进行科学合理的投资,更加深入了解行业内股票之间的
学位
改革开放以来,中国已成为工业大国,工业化是中国发展之路中不可逾越的发展阶段。工业化进程给中国带来了经济发展,同时也冲击了环境、资源与人类的平衡,工业绿色转型迫在眉睫。但我国工业绿色转型尚不成熟,对资源和环境问题的关注也不足。基于此,本文运用非径向数据包络分析模型(DEA)以及Malmquist指数模型,从静态和动态两个角度测算了2006-2018年中国30个省工业绿色发展效率及空间分布情况,并运用
学位
量子模拟是量子信息科学的主要研究内容之一,它不仅可以研究传统的厄米量子力学系统,还可以研究新奇的非厄米量子系统及其相关现象。非厄米量子系统近年来因其新奇的特性和潜在应用价值受到广泛关注,如何模拟非厄米系统是一个重要的科学问题,已有对宇称-时间反演对称系统、宇称-时间反演反对称系统、赝厄米对称系统等典型的非厄米系统的量子模拟的理论研究,然而赝厄米反对称系统的量子模拟理论方案尚未被提出。本论文对赝厄米
学位
保险经济学现存的一个主要难题是人们常常为自己投保太少,窄框架保险研究属于保险设计领域比较新的课题,可以帮助我们更好地解释保险市场中的低保险需求现象,也可以为保险公司的管理者提供一些管理启示。本文研究了固定保费限制下窄框架对投保决策和最优保险设计的影响,以及模糊结构下的最优保险设计。本文首先针对保险行业长期以来投保少的现状,研究了窄框架对投保需求的影响,先介绍了窄框架背景下的固定保费的经典保险模型,
学位