基于多模型融合的广告点击率预测研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:nc_xujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网经济的不断发展、科技的进步和电子商务的日益强大,与互联网相伴相生的线上广告在过去的数十年间实现了迅猛的发展。作为一门崭新的学科交汇科学,计算广告学倍受关注。其主要包含广告学、文本计算、信息检索、统计模型和经济学等多个学科的理论和应用。计算广告是为某些特定的用户群体而设计的,从出现至今都是互联网新兴应用领域中的热门问题,成为了一个新的商业增长点。广告点击率预测(Click-Through-Rate Prediction,简称CTRPrediction)是计算广告科学的关键环节,已成为互联网广告应用的前沿,日益受到人们的关注。点击率预测是广告研究中的重要算法之一,它可以预测每次广告的点击率,并确定使用者点击概率最高的广告。广告点击率与广告投放的时间顺序、收费标准等影响因素有关,一个优秀的CTR预测模型可以增加广告平台的收入,助益广告商的成本预算,带给使用者更佳的用户体验。在线广告中的搜索广告是一种增速最快、范围最广的广告形式,其点击率与广告发布的时间、费用成本等息息相关。这一点对于CTR的研究也有着关键的启示作用。使用机器学习方法,基于已有的广告数据预测广告点击率是较为常用的方法,有效的CTR预测能够让广告投放更准确,实际点击率更高,广告收入更丰厚。尽管线性模型能够大致预测出广告点击率,但普通的线性模型对逐渐增多的数据特征的学习能力十分有限,过度拟合是其在学习过程中容易面临的问题,从而影响模型的特征学习能力。因此本文通过数据预处理与特征工程、模型构建与模型实现两个阶段,最终建立了展示广告点击率预测的三个单一模型:逻辑回归(LR)模型、随机森林(RF)模型及深度神经网络(DNN)模型,更进一步的建立了两个融合预测模型:GBDT+DeepFM模型和stacking融合模型,经验证,融合模型在测试集上的Logloss和AUC值均显著优于单一模型,有效提升了预测性能。并且stacking融合模型的预测性能更优于GBDT+DeepFM模型。本文所完成的探索研究主要包括如下三个方面:(1)数据的描述分析和预先处理。首先基于原始数据集中的24个特征(15个已知的明确特征和9个未知的匿名特征)的含义,对初始数据集中数据的各方面特征完成了描述性统计分析,进而又分析了样本的关联性和分布性等。而后对原始数据进行预先处理,检查处理了缺失值和异常值数据。删除了无效特征,并且细化了部分特征变量。本文又根据模型的差异对特征实施了不同的处理,LR模型通过对显性特征组合进行拼接来达到获得隐藏用户属性的目的,再将原始数据集中类型不同的特征变量转换成类型一致的特征变量。RF模型则通过特征字典,来去除出现频率低的样本,再通过独热编码处理剩余的特征变量。基于DNN模型,本文首先收集了各个特征的频次,然后基于收集结果形成特征字典,将原始数据集中的字符型特征变换为整型特征,然后标准化得到的整型特征,让各个特征的值都在[0,1]范围内。(2)模型的构建训练与最终实现。LR模型使用自适应Adagrad算法,Adagrad算法借助其自适应的性质分配不同的学习率给每一参数。RF模型则是从训练集中抽取样本作为模型的根节点,模型训练便是从根节点开始。模型的训练主要使用的是工具包sklearn中的RandomForestClassifier模块。DNN模型是从输入层开始,再到隐藏层,最后抵达输出层。模型通过求解目标值与最终输出值的误差,再基于反向传播实现权重更新,循环往复,直至计算的误差等于目标误差值时,最终结束模型的训练。GBDT+DeepFM模型中的梯度提升树模块通过将区分度高且关键的特征组合提取出来,生成另一个新的数据集。而Stacking模型融合将调整到最优参数的随机森林和LightGBM作为初级模型,可以在降低过拟合的风险的同时提高模型的准确性。另外,次级模型使用加入正则项的Logistic回归。(3)本文是以python语言作为主要工具来构造LR模型,RF模型、DNN模型和另外两种融合模型。并将以AUC值与Logloss值为主要评价指标来评判模型的实现效果,对不同模型的实验结果进行对比分析。
其他文献
近年来在全球各地,新冠肺炎疫情持续不断,形式依然十分严峻。面对疫情的不断冲击,2021年,国际货币基金组织表示开放外国对华投资,而中国政府也决定逐渐对外开放金融行业。面对这一机遇和挑战,中国需全面了解国内国外金融市场行情,保障本国经济利益。本报告节选最新发布的《德意志银行股份有限公司招股说明书》,属于信息型商务文本,任务文本在国内无中文译本,因此具有时效性、前沿性,为其他投资公司或个体了解德意志银
学位
我国资本市场开始于改革开放初期,在三十多年的发展过程中,我国资本市场不仅有国内资金涌入,更有外资参与,发展至今已成为世界第二大资本市场。资本市场的健康发展离不开金融产品的支持,期权作为重要的金融衍生工具有着独特功能,对于投资者而言,由于在单向交易中无法预测市场价格波动,在交易时会伴随着一定的潜在风险,期权作为一种重要的保险工具,可以一定程度上起到保险作用,以及为投资者提供更为丰富的投资工具及投资方
学位
众所周知,金融衍生品是一国金融市场发达与否的标杆。近年来,我国经济快速发展,资本市场活跃度逐渐上升,但资本市场结构单一、金融衍生品种类不丰富的问题一直存在,这在一定程度上限制了投资者的投资需求。在金融衍生品中,期权类金融产品的风险、收益组合具有多样性,是投资者进行套期保值、风险对冲以及套利交易的佳选。因此,经证监会审批,2015年2月9日,上海证券交易所发行了上证50ETF期权(510050.SH
学位
近年来,诸如康美药业财务造假等事件,我国上市公司盈余操纵丑闻屡见不鲜。虽然近年来对上市公司信息披露的监管力度有所加强,但仍有不少上市公司通过虚假交易虚增利润、重组债务、伪造IPO信息、通过误导性披露扭亏为盈等行为进行盈余操纵。它客观存在于我国资本市场,我国上市公司的盈利质量不容乐观。有效保护投资者利益,共同营造良好的市场氛围,是资本市场健康发展的基石。然而,盈余管理作为资本市场的不成文规则,有意或
学位
环境安全规划设计无疑是舒缓城市治安管理压力的有效途径,然而我国城市建设对安全规划设计的关注较少。通过对国际基于政府犯罪预防策略主导的社区环境安全规划设计经验的剖析,提炼不同国家应用安全规划策略的共性特点。从犯罪预防法规政策、国家预防犯罪委员会的统筹作用、城市规划部门职能、公众参与设计4个方面,梳理并介绍北美、英国、北欧、东亚等多个国家和地区环境安全规划设计实践的经验,以期为我国城市规划设计预防犯罪
期刊
经过全党全国各族人民持续奋斗,我们实现了第一个百年奋斗目标,在中华大地上全面建成了小康社会,历史性地解决了绝对贫困问题,正在意气风发向着全面建成社会主义现代化强国的第二个百年奋斗目标迈进。2011年3月中共中央国务院印发的《关于分类推进事业单位改革的指导意见》要求到2020年事业单位管理体制基本完成,但随着改革的进一步深化,改革效果并非尽如人意,诸多深层次问题逐渐暴露出来。从国家层面看,存在着体制
学位
新冠疫情的突发给我国经济社会带来前所未有的冲击,主要表现在:一是经济增长放缓,2020年一季度,国内生产总值同比下降6.8%,首次出现负增长。二是就业压力进一步增大,一方面,由于我国劳动人口基数庞大,加之农民工、大学生两大重点群体规模持续扩大;另一方面,疫情导致产业发展受阻,作为拉动就业主力军的服务业更是首当其冲。在经济发展和就业增长都面临很大挑战的情况下,作为新经济业态的直播电商展现出了强劲的发
学位
税收是国家依靠公共权力,取得的一种无偿性国民收入。在来源上取之于民、并用之于民、更是为了造福于民,税收不仅为国家治理提供了有关财力方面的基础保障,更是政府获得财政收入的主要来源,对促进经济发展、维护社会稳定发挥着无可替代的作用。税务机关可以从履行税款征收、税源管理、税务稽查、纳税服务等相关职能来入手,从而对现代税收工作实现系统化的管理。在税务机关的四个职能中,税收征管是税收工作的核心,而税源管理又
学位
通过几十年的发展,进化算法已经成为解决复杂优化问题的常用方法。随着实际生产力的发展,新型的优化问题层出不穷,多因子优化就是一类新的优化问题,指的是在同一表达空间中同时优化多个任务。多因子进化算法是一种为了有效解决多因子优化问题、以多因子遗传模型为基础,受到迁移学习思想启发而提出的新型优化算法。算法主要利用了跨任务的基因迁移来提高同时处理多个相似任务的优化效率。尽管多因子进化算法已经证实在处理多因子
学位
工业4.0时代的到来,推动了通信及信息技术迅猛发展,数据资源已经成为新时代全球范围内关注的焦点,如何有效采集、分析和利用海量复杂的数据来提高人民生活质量已经成为全世界专家学者共同的研究课题。在我国,大数据分析技术的应用正处在高速发展的阶段,近些年国家发展战略中多次提及大数据,并且已经在多个政府部门进行全方位的开展。海关作为重要的口岸监管部门也紧跟时代步伐提出“科技兴关”并将大数据分析技术在多个领域
学位