基于深度学习的在线广告点击率预估模型

来源 :河北经贸大学 | 被引量 : 0次 | 上传用户:w_wangjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,在线广告已成为广告营销产业的重要组成部分。广告点击率预估模型是通过预测用户在特定情境下对广告的点击率,为相关企业提供产品排序和广告投放等决策支持,因此成为学术界和工业界关注的研究热点。点击率预估模型的本质是一个分类模型,输出用户是否点击的概率,对于不同的背景数据,其特征组合的情况往往存在很大差距,很难找到一个单一的模型去适用所有的数据集,模型的优劣性也无法用单一的数据集来判断,因此,文本基于传统的深度点击率预估模型Deep FM提出了两个适应于不同背景数据的点击率预估模型,在面对不同的背景数据时,可以使用相对合适的模型来取得更优的效果。本文的主要工作如下:(一)提出了融合双重注意力机制和自适应嵌入的点击率预估模型,简称MAMEDFM模型。Deep FM模型原始的特征嵌入层在单一特征进行交互时采用单一隐向量,对特征的表达能力不强,而且在特征组合时会丢失一些信息。基于此,本文对Deep FM模型的嵌入层进行了改进,改进后的模型会依据交互目标的类别不同,生成不同的隐向量进行特征嵌入,从而提高模型的表达能力。由于嵌入层的改进会大大增加特征的组合,为了保证特征交叉的有效性,在交叉阶段引入了双重注意力机制来进行筛选控制,更大程度的降低冗余特征组合的权重,充分挖掘了不同行为特征对特征交互的影响。(二)提出了融合知识蒸馏和高阶特征组合的点击率预估模型,简称Soft-DICN模型。基于Deep FM的FM部分进行改进。因子分解机(FM)模型是机器学习领域的重要模型。它能够处理低阶的特征组合并输出组合的特征,有利于后续的业务挖掘分析。Deep部分使用深度神经网络,能够处理高阶的特征组合但是无法输出具体的组合信息,无法提供高阶组合的业务分析和指导。故本文将FM部分进行拓展,使其能够捕获高阶的特征组合并且输出组合信息,然后在各阶的组合处加入样本感知注意力机制,有效的去除高阶组合中的冗余组合。最后,使用知识蒸馏架构来设计模型,解决其高阶组合带来的计算复杂度问题。本文两个模型的适用场景略有差异,故在两个公开的数据集Criteo和Avazu上进行实验分析,并且使用多种同类点击率预估模型进行效果对比,实验结果显示,模型一MAME-DFM在两个数据集上的预测AUC值分别为0.7791和0.7912;模型二Soft-DICN在两个数据集上的预测AUC分别是0.7770和0.7846。与基线模型相比,两个模型均有明显的提升。此外为了验证模型在当前流行的广告行业中的有效性,本文将模型应用于阿里公司公布的淘宝在线广告点击率预估数据集上,面对真实的数据集两个模型都取得了较好的预测结果,并且得出了对在线广告点击率影响最大的十个特征变量。因此,本文的研究不仅可以进一步丰富和发展现有的在线广告点击率模型的相关理论,更进一步,还为相关企业进行产品信息的深度挖掘提供技术和决策支持。
其他文献
在2022年10月16日,中国共产党第二十次全国代表大会在北京举办,在会议中领导人指出我们要坚持以推动高质量发展为主题,把实施扩大内需战略同深化供给侧结构性改革有机结合起来,增强国内大循环内生动力和可靠性,提升国际循环质量和水平。当前,在中国双循环的建设需扩大内需和促进消费,但是消费的增长需要金融业的发展。长期以来,河北省发展模式固化,为打破这种固化模式,近几年河北省不断进行产业结构的升级,希望由
学位
我国中小企业在推动经济发展和解决就业问题上发挥了重要作用,但由于中小企业规模较小,银行和金融机构借贷门槛高,造成中小企业融资难和融资贵等难题。供应链金融的蓬勃发展,给中小企业的融资找到新途径,将供应链金融和保理资产证券化相结合构成创新型的融资模式。迄今为止,我国供应链金融保理资产证券化产品发行规模和发行量均在大幅度上升,其目的是为了更好地服务于实体经济,优化资源配置。由此可得,供应链金融保理资产证
学位
2020年我国已消除绝对贫困,不断向乡村振兴的道路上发展,而城乡收入差距一直是其中的关键一环。近年来,我国城乡收入差距在国家政策支持下虽有所缩小,但是仍然处于较高水平,城乡收入相对差距接近三倍。金融业在促进经济增长、提升居民收入水平具有重要作用,数字普惠金融打破了传统金融的成本高、效率低的劣势,通过数字技术为全社会各阶层提供公平包容的金融服务,这为提高农村居民收入带来了新的契机,进一步为缩小城乡收
学位
近年来,河北辖区股票市场迎来快速发展,在上司公司数量和总市值规模等方面已处于全国中等水平,为河北地区上市公司和地方政府实现融资以及服务乡村振兴等都方面发挥了重要作用。然而受到注册制的全面推行、严峻的外部经济环境等因素的影响,使得河北辖区股票市场的发展具有一定风险。因此,正确认识河北辖区股票市场的风险特性并找到一个合适的模型去度量风险不仅具有重要的理论意义,而且对于投资者进行科学合理投资、监管部门制
学位
我国在经历了经济高速发展时期后,物质资源逐渐富足,人民的生活水平也在日益提升。在此背景下,我国居民对自身的身体健康越发重视,更是对医疗卫生服务产生了多元化需求。我国的基层医疗卫生体系始终承担着为居民健康生活“兜底”的作用,因此近年来我国对基层医疗体系的改革脚步从未放缓。而基层医疗卫生资源在今天还存在着部分问题:一是仍然存在区域化差异,二是部分机构的无形资源仍难以满足群众需求,三是部分省市区中可能存
学位
随着我国工业化进程的不断加快,产业结构问题不断显现,高附加值产业所占比例较低,高污染、高耗能产业所占比例较高,所以优化产业结构是我国当前的一项重要工作。绿色金融是对环保节能领域具体项目投融资的金融服务,能引导资源从污染、耗能行业向绿色环保产业流动,是优化产业结构的重要途径,而绿色信贷是其中占比最大的产品,其发展规模的不断扩大使更多的资金流向绿色产业,对优化产业结构起到了重要的作用,因此开展绿色信贷
学位
长期以来,人们过度地使用农药、化肥、地膜等对农业环境和生态系统造成了严重的负面影响,因此如何平衡农业经济增长和生态环境保护就成为学者广泛关注的热点问题。农业生态效率是一种衡量将农业生产中的资源、环境转化为经济能力的指标,该指标能直观地反映地区农业生产的绿色程度,而农业生态效率的影响因素分析可有效指明该地地区农业的发展方向。山东省农业居全国首列,具有风向标作用,因此对山东省农业生态效率进行测算以及影
学位
ChatGPT的问世与快速发展将助推学校体育教育的发展与变革,但也带来了新的风险挑战。学校体育如何在ChatGPT的助推下既能把握发展新机遇又能迎合新挑战成为新时代ChatGPT与学校体育教育融合的重要议题。因此,本文以ChatGPT助推学校体育教育发展为视角,运用文献资料法、逻辑分析法等分析了ChatGPT为学校体育教育带来的发展机遇,激发学生对体育运动技能的创造力,整合体育教育资源,为体育课程
期刊
党的二十大报告提出:“以国家战略需求为导向,集聚力量进行原创性、引领性科技攻关,坚决打赢关键核心技术攻坚战。”高效发展科技创新为主体目标,而产学研协同创新是其先进系统。产学研协同创新是一个以多元主体交互融合的复杂网络体系,其发展将提升科技创新能力、提高经济高质量发展、可从侧面诠释区域融合状态,提升产学研协同创新发展水平,是促进区域协同高速发展的必由之路。对于研究区域的选取,北京是科技创新中心,天津
学位
在人工智能、云计算、物联网等新兴科技迅猛发展时期,高技术产业已成为社会发展进步的重要引擎。伴随着信息技术快速发展及传统产业数字化的转型,数字赋予了生产要素新的内涵和特征,数字经济以数字为基石不仅推动中国式现代化经济绿色高质量发展更为高技术产业发展注入新动能。运用数字经济发展优化市场资源配置,提高创新驱动效果,实现高质量发展至关重要。本文选取我国31个省份2013-2020年面板数据,以数字经济发展
学位