基于自动机器学习的点击率预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xzh19870715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
点击率预测任务在推荐系统与计算广告行业有重要的意义,然而以往的方法大多需要人工设计算法模型,需要大量的专家知识,费时费力。为改善这一问题,本文提出使用自动机器学习技术实现点击率预测模型的自动化设计,实验证明了所提出的方法相较于人工设计的方法有更好的稳定性与预测能力,同时,本文在原有基础上对搜索过程做了进一步优化,提高了预测准确性。首先,本文总结了常用的点击率预测的微操作,构建了基于cell的搜索空间,并使用梯度下降法搜索最佳的模型结构,实现点击率预测模型的自动化设计。本文在三个公有数据集上对比了神经架构搜索得到的算法模型与人工设计模型的性能,实验结果表明自动化搜索得到的模型结构相较于人工设计的传统方法有更佳且稳定的预测效果,并且可以为不同的数据集实现个性化设计。其次,神经架构搜索方法存在着操作与拓扑结构耦合的问题,不能得到最合适的图结构,因此本文对搜索过程做了进一步优化,在原有的操作空间上添加拓扑空间,将操作搜索与拓扑搜索解耦。操作搜索为每条边搜索最合适的操作,拓扑搜索为图搜索合适的拓扑结构,实验表明解耦后能够搜索到更佳的算法结构。最后,由于连续特征拥有无限的数据值,因此无法通过传统的嵌入学习方式对特征进行处理,针对这一问题,本文提出一种软离散化方法,使用键值记忆网络学习连续特征的嵌入表示,该方法对连续特征有更好的表现能力。
其他文献
粮食安全问题是关系国计民生的根本性问题,病虫害、自然灾害等对我国粮食产量有着巨大的影响。在应对这些灾害时,网上与之相关的信息虽然繁多,但是存在内容表达差异以及知识零散等问题,数据存储结构以及表示方式等也各不相同,处于一种相对混乱的状态,人们难以高效地利用好这些信息。近十年里,知识图谱技术发展迅速,其能有效地描述各类事物,以及提高搜索查询的速度与质量,因此利用知识图谱相关技术来整合农业领域相关的数据
学位
慢性代谢性疾病主要包括II型糖尿病、高尿酸血症和肥胖,因其高发病率、高死亡率和年轻化趋势,成为人类健康的重要威胁。以α-葡萄糖苷酶、α-淀粉酶、黄嘌呤氧化酶及胰脂肪酶为靶点,寻求安全、毒副作用小的天然活性物质是这几种慢性代谢性疾病防治领域的研究热点。紫草素是一种源自紫草的天然活性物质,具有抗炎、抗菌以及抗肿瘤等药用价值。探究紫草素与几种慢性代谢病相关酶的相互作用机理对扩大紫草素的应用范围以及防治I
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)是一种由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-COV-2)引起的呼吸道传染病。冠状病毒可跨物种传播到包括人类在内的多种哺乳动物,严重威胁人类健康及公共卫生安全。因此,快速准确地预测冠状病毒宿主分类对于未来防控流行病具有重要意义。本
学位
考试是一种检验考生学习能力和选拔人才的方法,通过考试,可以了解考生对所学知识的把握程度,从而选拔合适的人才。考场作为考试的场所,需要有监考人员进行监督,来防止考生在考试时作弊。只有公平公正的考试环境,才能够检验出考生的真实水平。随着科技的发展,监考的手段也不断地现代化。传统的监考方式主要依靠人工监考,考试中心会在每个考场安排监考和巡考人员来维持考场秩序。通常由于考试集中在期末,规模较大,并且监考人
学位
化合物-蛋白质相互作用(CPI)预测是药物研发领域的一个重大课题。药物研发过程中,需要从大规模化合物中筛选出能与蛋白质亲和的样本,这一步用化学实验的方法比计算的方法消耗大得多。随着各种科学实验的不断进行产生了大量生物数据,通过计算机建模能够快速有效地利用这些数据对化合物进行筛选。因此提高化合物-蛋白质相互作用预测的准确率,可以缩小化合物的搜索空间,在药物研发过程中起着至关重要的作用。针对现有化合物
学位
随着物联网的发展,智能家居设备越来越普及,并且智能家居已经实现了以“物”影响“物”的方式来控制家居设备之间的交互,我们把这种方式称为事件驱动式编程,其中具有代表性的事件驱动式编程第三方平台是IFTTT。然而对于普通的新手用户来说,事件驱动式编程上手起来还是存在一定难度。同时,用户在智能家居环境下对设备的使用数据对科研工作者分析用户行为有重要意义。然而由于用户数据的安全性和不同厂商的数据壁垒,智能家
学位
肥胖是全球第五大死亡风险因素,发生发展的过程极其复杂,它是许多心血管疾病的前期体现。肥胖产生的炎症反应、产生的游离脂肪酸、脂肪组织中特异性表达的蛋白如PPARγ等、脂肪细胞因子ADPN、TNF-α等以及鞘磷脂类物质如神经酰胺等都与肥胖导致的胰岛素抵抗(Insulin Resistance,IR)关系密切。目前市售的减肥产品或药品副作用大、治疗效果有限,因此寻找效果好的天然无毒产物治疗肥胖并探究其可
学位
近年来,随着信息网络技术的普及与发展,网络中产生的数据量急速增长,其包含的信息也愈加丰富,利用信息网络的研究去指导人们的现实生活已成了一种必然趋势。链路预测作为信息网络的主要研究内容之一,其目的是预测信息网络中节点与节点之间产生链路的可能性。链路预测有着理论研究价值,在社交网络、生物医药、金融等领域有着广泛的应用。链路预测的核心问题是探究网络的演化规律和结构特性。尽管目前链路预测的方法众多,但是融
学位
信息技术的发展,使得生活中的软件层出不穷,漏洞也会越来越多,一些重要的软件的漏洞被恶意使用后会给个人、企业甚至国家造成巨大的损失。由于一些可执行文件大多不开放源码,这就给漏洞的检测造成了困难,技术人员不得不借助逆向分析工具来进行分析。可执行文件可以被理解成由一个个函数组成的二进制文件,在进行反汇编或逆向分析的过程中,确定其中函数的边界就显得尤为重要。当前针对二进制函数边界识别技术的研究有限,大多都
学位
土壤盐渍化是人类面临的一个全球性问题。研究并揭示耐盐、碱植物在进化过程中产生的适应性及其特有的耐受机制对于改善土壤盐渍化和提高植物甚至作物的耐受性具有重要意义。柽柳作为一种先锋树种,可在重度盐、碱地上正常生长,是研究耐盐、碱植物适应机制的重要材料。大量研究表明,在植物适应非生物胁迫的过程中,表观遗传修饰起到非常重要的调节作用,但关于柽柳耐盐、碱胁迫的表观遗传学机制的研究尚未见报道。本研究以柽柳为材
学位