基于集成学习的淘宝展示广告点击率预测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:fairytalezoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网领域技术不断的进步革新,各种互联网应用出现在人们的生活中,并逐渐变得不可缺少。而互联网广告依托互联网应用这个载体也就此诞生。能否精准地了解用户喜好并预测互联网广告的点击率成为了当前研究的热点之一。广告点击率通常是预测用户点击某条广告的概率。广告技术中最重要的算法之一就是通过对广告点击率的预测进而找出用户最有可能点击的那条广告。广告点击率关系着广告的排序以及相应的点击付费等方面内容,因此良好的广告点击率预测模型可以为广告平台带来较高的点击付费收益,为商家提供有关产品优化及预算制定等方面的理论支撑,并且也能更准确地迎合用户的喜好,带来更加便捷的上网体验。展示广告作为互联网广告的一个类别,随着技术的更迭发展迅速,在互联网广告的市场中有着较大的市场份额。本文以淘宝展示广告数据集为例,利用了Bagging、Boosting和Stacking三种集成学习方法对点击率预测,并整体学习了数据处理、特征编码、特征组合和集成学习等理论内容。本文主要研究Bagging中的随机森林,Boosting中的XGBoost,并在集成学习中结合将前两个模型、FM算法和神经网络结合进行点击率的预测。第一部分是数据的分析和处理。在已有的数据集上进行可视化和预处理,从样本正负比例、不同时期、用户角度和广告角度进行可视化分析;数据处理主要是包括针对缺失值插补、时间戳转换、数据标准化以及数据采样四个方面进行分析处理。第二部分是特征的处理。由于数据集中特征大部分都是类别特征,可以使用标签编码和独热编码两种方式,但因为本数据集中包含了大量ID类特征,因此为了挖掘出ID类特征更多的信息,采用了Word2vec编码方式。之后将编码过的特征放入GBDT模型中进行自动的特征组合。第三部分是模型的处理。本文实现了Bagging集成学习(随机森林模型)、Boosting集成学习(XGBoost模型)和Stacking集成学习(FM模型、随机森林模型、XGBoot模型和BP神经网络),其中Stacking集成学习采用5折交叉验证生成次级训练集和测试集,保证数据的不重复性。最终的实证结果表明,通过使用本文选取的数据集,在点击率预测的准确性上,Stacking集成学习优于其他两种集成学习方式,其AUC值和Logloss值都明显优于其他两种集成学习方法;但在模型计算时间和特征重要性分析方面,随机森林和XGBoost模型不需要进行两层分类器的构建,并且还可以输出数据中重要性高的特征,更加节省时间并且有助于将点击率预测和业务场景结合,优于Stacking集成学习。
其他文献
当前我国存在的一个主要经济社会问题是劳动力空间分配不合理,特别是在北上广等经济发达地区,劳动力过度竞争问题突出,而在一些经济欠发达地区,劳动力短缺问题又尤为严重,从而出现了部分地区超负荷发展而部分地区发展疲软的失衡局面,这严重限制着经济社会的可持续发展。为了克服上述因劳动力非均衡流动所造成的经济发展阻碍,必须对劳动力流动的基本规律加以深入研究,以便于运用劳动力流动的基本规律,来指导劳动力在我国各地
学位
中文命名实体识别任务是自然语言处理的一项重要的基础任务,常用在信息抽取、信息检索、机器翻译、问答系统、知识图谱构建等复杂任务中,作为结构化信息提取的必不可少的重要组成部分。在社交媒体领域,每天都会产生海量的数据,从中提取出各类实体对舆情监测、市场营销等方面具有重大意义。在中文社交媒体领域,存在着用词不规范、谐音、歧义以及结构复杂多变的特点,并且语料规模有限,标注数据匮乏。本文所用的数据集均来自于开
学位
进出口贸易持续时间是目前国际贸易领域研究中的新兴议题。在我国与世界各国的联系越来越密切、中国经济对世界经济的依懒性不断增强的背景下,出口贸易额的稳定增加不仅需要积极地开拓贸易伙伴,更重要的是对已有贸易联系的维持与深化。这在微观中体现在如何减少企业已有出口贸易关系的中断问题,也就是如何延长企业出口贸易的持续时间。有关进出口贸易持续时间的文献比较统一地使用生存分析法进行研究,生存分析法不仅可以对企业出
学位
我国目前经济体量全球第二,但在高新技术领域,我国的高新技术产业竞争力距离世界顶尖发达国家仍有不小差距,在建设科技强国的道路上还存在短板,会遇到“卡脖子”的难题。在新时代,我国国民经济和社会发展规划中又对科技创新提出了的新目标,这对于我国经济发展和社会进步来说是重要的推动力量,而作为创新科技驱动的高新技术产业,正处于一个质变的关键时期。如何解决高新技术产业目前发展不平衡、评估体系不完善、自主研发动力
学位
2021年十四五规划中指示坚持创新驱动发展,完善科技创新机制体制,加快数字化社会建设步伐。数字普惠金融的发展顺应国家政策和社会发展的规律,可以有效促进金融业的持续均衡发展,提升人民生活水平和幸福感。通过互联网使用户就能体验到金融服务也进一步降低了参与金融市场的成本,达到了更大程度上的普惠效果。家庭金融作为金融发展领域的一个分支,正不断地受到金融科技的影响,而家庭借贷行为作为家庭金融决策的一个分支,
学位
随着我国经济发展方式发生变化,创新逐步成为我国现阶段发展的决定性力量,唯有创新才是经济增长的长期动力。目前我国不断推动创新驱动战略,大中型城市等创新要素聚集城市在建设创新型国家过程中作用显著,为加强我国在国际中的竞争力,不仅需要大中型城市提升自身创新能力还需要其充分发挥创新辐射作用带动周边城市的经济发展。因此明确我国大中型城市创新能力现状以及其对经济增长的空间溢出效应,对于地区创新协调发展,促进经
学位
当前,数字经济在全球范围内迅猛发展,在新冠疫情依旧肆虐的当下,以数据为基础的数字经济推动着各方经济持续向好发展,而我国目前面临比较大的经济下行压力,数字经济通过与传统产业相融合的方式,促进着传统产业的变革完善,与此同时对生产效率的提升也起到了积极的促进作用,又由于数字经济属于绿色经济,其发展能够进一步的改善环境,从而减少污染物的排放,从而提升我国全要素生产率,促进我国经济健康持续高质量发展。而我国
学位
创新是国家持续发展的核心动力,是提升大国核心竞争力的关键所在。近年来,中国创新投入不断增加,科技实力进步显著,但受制于融资约束与信息不对称,我国中小微企业的创新活力总体不足,创新成效不甚理想。金融科技催生出新型金融服务模式,扩大了信贷服务覆盖面,对促进我国中小企业融资,改善我国创新环境具有重要作用。厘清金融科技背后的发展逻辑,探究其对企业创新的影响路径,这关乎企业未来,关系到我国金融行业的健康发展
学位
汽车现在是生活中必不可少的交通工具,可以说汽车已经深入到生活中的每一个角落,并推动着社会经济的发展。然而由于能源的日益损耗及对大自然的日益污染,地球面临的挑战与日俱增,截至2020年6月,我国的汽车保有量已达到2.7亿辆,给生态环境带来了巨大压力。而近几年低碳环保的新能源汽车正在慢慢的改变这个时代,国家的提倡与支持,各大小企业的节能减排要求,都在促进新能源汽车的飞快发展。一般情况下,通过传统的车辆
学位
空气是人们赖以生存和发展的不可缺少的环境要素之一,清洁干净的大气环境有益于人们的身体健康。治理空气污染,让蓝天白云常驻,是群众所盼、民生所系。城市是空气污染的重灾区,也是空气治理工作中的重难点,“十四五”规划将城市空气质量列为经济社会发展约束性指标,影响着整个城市的综合竞争力,足以体现城市空气质量的重要性。如今大气污染防治进入深水区,制定措施更要保证科学化、精准化,降低治理成本,提升治理质量。因此
学位