面向点击率预测模型的自动化机器学习管道的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:STTELA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上的信息量越来越大,如何在海量信息中找到最适合的信息成为了互联网用户的迫切需求,而推荐系统则是能够通过预测用户对信息的点击率进而为用户推荐特定的内容,从而提高用户体验。深度学习技术的发展能够大幅度提升推荐系统算法中点击率预测模型的表现。然而,构建基于深度学习的点击率预测模型仍然面临着很大的问题:(1)构建深度学习模型是一个需要大量重复的工作且十分耗时的过程;(2)推荐系统的工业实践中往往伴随着不断变化的新数据或者新任务,从而需要重新去调整相应的深度学习模型结构以及超参数。针对这样的问题,本课题提出了一个结合了自动化机器学习(Auto ML)和深度点击率预测模型构建(Deepctr)的管道,命名为:Auto-Deepctr。本文实现的Auto-Deepctr管道实现了全流程的深度点击率预测模型的自动化构建。Auto-Deepctr使用机器学习的方法对数据集中的数据特征类型进行预测,然后针对不同的特征类型进行相应的数据预处理操作,实现对数据预处理阶段的自动化。而后本文实现了11个在工业界或者学术界上都具有一定知名度的深度点击率预测模型,这11个模型都是由一系列用于构建深度点击率预测模型的组件而构成。这些组件不仅构成了深度点击率预测模型的层次结构,还定义了各自的超参数搜索空间。最后本文通过实现三个超参数优化算法:随机优化、贝叶斯优化以及遗传算法优化,使用这些超参数优化算法可以实现对各个深度点击率预测模型的超参数自动寻优。本文通过一系列实验证明了Auto-Deepctr管道对于大部分推荐系统数据集的点击率预测任务,都能够做到从输入数据集开始到输出最佳模型的端到端全流程自动化。另外,工程师还能够使用Auto-Deepctr管道中的构成模型的组件来灵活搭建自己的点击率预测模型,然后使用Auto-Deepctr管道的各个超参数寻优算法对该用户构建的模型进行自动寻优。除此之外,本文将Auto-Deepctr管道部署到了一个基于B/S架构的Web应用中去,能够使得非计算机相关的从业人员也能够通过简单的图形化操作使用Auto-Deepctr管道构建深度点击率预测模型。
其他文献
目的研究中性粒细胞与淋巴细胞比率(NLR)和血小板分布宽度(PDW)联合在可切除胃癌患者预后中的应用价值。方法根据纳入及排除标准,回顾性收集2014年12月至2016年6月期间在安徽医科大学第一附属医院普外科接受根治性手术的210名胃癌患者的数据。通过ROC曲线分析确定术前患者外周血PDW和NLR的最佳截断值,再通过Kaplan-Meier生存曲线分析、对数秩检验以及单因素和多因素COX比例风险回
学位
生物质作为一种富含碱金属、分布广泛的可再生能源,目前存在着利用率低下,能量利用效率低等问题。煤作为一种不可再生的化石燃料,一直以来都是通过直接燃烧的方式供热或者发电,这种做法存在着污染环境、利用率低等问题。虽然近年来煤和生物质的清洁利用已经逐渐开始引起人们的重视,但以往的研究多关注煤和秸秆的静态热解以及单一气氛热解,使用回转窑动态装置进行热解及改变热解气氛还少有论及。为此,本文以褐煤和玉米秸秆按不
学位
目前,非物质文化遗产已进入“后申遗时代”,甲骨文作为我国汉字发展脉络的源头,不仅是维系中华民族文化的纽带,也是中华文明真实而又丰繁的镜像。研究人员已经证实,运用数字化技术增强非遗文化传承的多样性和鲜活性是可行的,这为非物质文化遗产的传承和发展提供了新的研究方向。另外,非物质文化遗产的传承与创新需要依靠不同领域之间的相互协作,而设计不仅能引导大众审美,还能为非遗提供符合当下传播形式的方向,是发展非遗
学位
目的:探究基于机器学习结合MALDI-TOF MS快速检测碳青霉烯耐药肺炎克雷伯菌(CRKP)和碳青霉烯敏感肺炎克雷伯菌(CSKP)的方法,分析CRKP以及CSKP在哪些峰特征中出现明显的改变,并分析这种分类方法性能的优劣。方法:随机收集95株CRKP菌株以及76株CSKP菌株作为实验菌株,在哥伦比亚血平板上培养18-24小时后使用MALDI-TOF MS进行菌种鉴定并采集它们的质谱数据,然后使用
学位
目的:(1)通过比较肝癌肝移植患者和良性终末期肝病患者术后并发症发生情况及生存率情况,探讨本中心肝癌肝移植患者的疗效和预后;(2)探讨术前降期治疗对术后并发症和短期生存率的影响;(3)初步总结肝癌肝移植复发防治的经验体会。方法:回顾性分析本中心于2015年2月至2021年9月期间收治的125例肝移植患者的临床病理资料。(1)根据术后病理结果,将全部病例分为肝癌肝移植组27例和良性终末期肝病肝移植组
学位
背景:据报道,血浆纤维蛋白原(Fibrinogen,FIB)或全身炎症反应指数(Systemic Inflammatory Response Index,SIRI)升高与几种癌症的不良预后有关。纤维蛋白原和全身炎症反应指数(F-SIRI)已被证明是预测胃癌预后的有价值的工具。我们希望评估术前F-SIRI水平对肝细胞癌(HCC)患者肝切除术后预后的价值。肝细胞癌(Hepatocellular car
学位
软件缺陷是软件系统中需求、体系结构、设计和应用上的错误。测试人员发现缺陷,将缺陷记录在缺陷报告中,通过缺陷报告将缺陷告知给开发人员,并对缺陷进行追踪和管理。缺陷报告是测试人员与开发人员之间重要的沟通方式。正确预测软件缺陷严重性,有助于及时将各种缺陷报告分派到合适的开发者手中,使其对缺陷进行修复,进而提高缺陷修复的效率与质量。现有的缺陷报告严重性预测手段主要是使用机器学习或深度学习方式从大量的缺陷报
学位
目的:葡萄糖-6-磷酸脱氢酶(Glucose-6-phosphate dehydrogenase,G6PD)和6-磷酸果糖激酶-2/果糖-2,6-二磷酸酶3(6-Phosphofructokinase-2/Fructose-2,6-Bisphosphatase3,PFKFB3)参与多种肿瘤发生发展的机制。虽然已知G6PD和PFKFB3在胃癌(Gastric cancer,GC)中表达上调。然而,对
学位
由于信息技术的日益渗透,再加上现有计算和存储、网络与传输规模的突飞猛进,使得数据不断的积累。在工业和科学等领域,由于观测、记录、实验等过程,会产生大量的科学数据,如天文数据、无线传感网传回的环境监测数据等。由于此类数据大多是以极高的频率自动收集而来的,因此具有数据量大且结构规范的特征。这些数据在揭示相关领域某些特有规律的同时,对所在行业未来的发展有着至关重要的作用。本文主要对如何利用索引技术在复杂
学位
目的:竞争性内源性RNA(ceRNA)网络与胃腺癌之间的关系已被广泛讨论,但ce RNA网络与肿瘤免疫微环境之间的联系尚不清楚。本研究旨在探讨ce RNA网络如何通过调节免疫微环境影响胃癌的发展和预后。方法:环状RNA(circRNA)、microRNA(miRNA)和mRNA的差异表达谱是从Gene Expression Omnibus(GEO)获得的。circ RNA和miRNA靶基因的mic
学位