【摘 要】
:
随着互联网的高速发展,互联网广告在我们日常生活中扮演着越来越重要的角色,如何提高广告点击率(Click-Through Rate,CTR)预估的准确性是学界和工业界研究的热门领域之一,因为提高广告点击率预估的准确性不仅有利于提高广告主和出版商的收入,还可以提高用户体验。因此,研究如何提高点击率预估的准确性是有意义的。本文以提高广告点击率预估的准确性为目标,在分析了业界三种经典模型——逻辑回归(Lo
论文部分内容阅读
随着互联网的高速发展,互联网广告在我们日常生活中扮演着越来越重要的角色,如何提高广告点击率(Click-Through Rate,CTR)预估的准确性是学界和工业界研究的热门领域之一,因为提高广告点击率预估的准确性不仅有利于提高广告主和出版商的收入,还可以提高用户体验。因此,研究如何提高点击率预估的准确性是有意义的。本文以提高广告点击率预估的准确性为目标,在分析了业界三种经典模型——逻辑回归(Logistic Regression,LR)模型、梯度提升决策树(Gradient Boost Decision Tree,GBDT)和逻辑回归融合模型、因子分解机(Factorization Machine,FM)模型的实验结果后,考虑到单一的点击率预估模型针对性不强,借鉴“分而治之”的思想,本文提出先对用户和广告进行聚类,然后在各聚类簇上建立广告点击率预估模型的方法,该方法认为同一个聚类簇代表了一种用户特征和广告特征的匹配模式,在同一聚类簇内,用户特征和广告特征协同作用,共同对最终的广告点击行为产生影响。该方法主要分为四个步骤:首先,采用亚组分析的方法识别出总体中存在的异质群体的数目,以此指导聚类数目的设定。本文推导出了二分类场景下的亚组识别算法,并通过这种有监督的学习方式来指导无监督的聚类方法中聚类数目的设定。然后,使用基于Jaccard距离的层次聚类方法进行聚类。接着,在每个聚类簇上建立点击率预估子模型。最后,将各子模型上的预测结果进行加权求和得到最终的广告点击预测概率。本文在真实数据集上进行实验,实验结果表明,本文提出的方法能有效提升广告点击率预估模型的预测性能。
其他文献
股票市场是金融市场中一个十分重要的组成部分,股票价格的高低波动不仅是股票市场的运行基础,同时也会直接影响到投资者的投资利益。投资者在进行股票投资的时候,通常会根据宏观经济指标以及公司财务指标来进行决策。在股市交易中,股价数据随时都在发生变化,而且这种股价的变化往往也会对投资者的行为产生影响。相较于其它财务指标,股票本身价格的变动是实时的、迅速的,有些投资者对于这种实时变动的数据的关注可能更甚于每季
<正>保密工作具有鲜明的系统性、整体性特征,任何层级、任何领域、任何环节出了问题都会“牵一发而动全身”,对国家秘密安全造成难以弥补的重大损失。作为国家安全和利益的“神经末梢”,基层保密工作一旦出现“木桶效应”,就会对整体工作造成不可逆转的损害。因此,做好基层保密工作必须绷紧保密之弦,时时谨记保密之重,刻刻警惕泄密之危,认真分析基层保密工作的短板弱项,下好防范先手棋,打好工作主动仗。
在这场抗击冠状病毒的持久战中,沟通与合作,尤其是预防措施的交流,具有重要意义。面对全球疫情的发展态势及其对人类生命健康安全等方面的影响,我们能从当中吸取何种经验和教训,如何将疫情的影响控制在合理范围内,如何战胜疫情。这也是笔者选择TED访谈《世界可以从中国应对冠状病毒中学到什么》作为本次模拟口译实践材料的主要原因。然后在UMEER框架(理解、记忆、表达、应急)的指导下,对本次口译实践的录音进行检查
本篇翻译实践报告是以英国作家托马斯·威廉姆斯的著作《维京不列颠》(Viking Britain)节选内容为翻译材料所展开的。《维京不列颠》内含大量的历史和地理知识,本次实践有助于了解维京时期的历史和背景知识,提升译者的翻译能力。本次翻译实践要求译者结合历史文本的特点,最大程度将原文的文学色彩和历史文化传达给读者,从而达到文化交流的目的。误译是指翻译过程中在思想或在内容上背离原文的错误翻译。我国著名
本报告是关于计算机行业历史丛书《IBM传》汉译实践中所运用的翻译策略模因的案例分析报告。本书分为四大部分,共20章节,本次实践中我选取第十四章的内容,约一万五千字。该书的体裁属于纪实文学,叙述了IBM公司发展历程以及相关历史事件。翻译模因论由切斯特曼所提出,该理论是在道金斯模因论基础上发展而来。切斯特曼最早将生物进化领域的模因论运用于翻译领域,试图以此构建一个系统规范的翻译理论框架。翻译模因论框架
21世纪社会进入了数据时代,人类收集、储存、传输、处理数据的能力取得了飞速提升,人类社会积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,机器学习顺应了数据时代的这个迫切需求,机器学习领域因此取得了巨大的发展、受到了广泛的关注。在计算机科学的分支科学领域中,无论是图形学、多媒体,还是网络通信、软件通信,乃至体系结构、芯片设计,机器学习已成为最重要的技术进步源泉之一。数据分类作为一种基础的
文章立足于人文地理学视野,将山东地区的地理背景、历史风貌进行解读,并分析这些因素对山东梆子发展产生的作用,再深刻剖析旋律、板式结构、人文思想等对其审美特征和风格的影响。除引言与结论外共三章。第一章首先对孕育山东梆子的优越自然环境进行概述,将黄河与运河对山东梆子扎根和传播产生的作用进行分析;其次,以滋养山东梆子的文化环境为切入点,深中肯綮地分析山东梆子的丰厚内涵;最后站在人民生活的角度,探析社会环境
多声音乐思维能力是一种综合的思维能力,能增强学生对音乐基本要素的把握,以及对音乐横向、纵向感知力及音乐语言情感色彩的理解。多声部音乐各声部跌宕起伏、结构层次多样丰富,这需要音乐学习者必须培养并拥有对音乐立体空间感知能力,即良好的多声音乐思维能力。多声音乐思维能力培养的根本目的是为了更好地领会音乐作品的内容、风格特点以及艺术价值,其训练内容必然涉及音乐的各个组成要素以及其他的方方面面,因此,培养音乐
表现出周期性并易受外界因素影响的时间序列广泛存在于金融、经济、社会科学、天文等各个领域中。外界因素对序列的影响并非一成不变的,这就需要我们选择合理的方法来实时估计外界因素的影响。同时,部分时间序列的周期是未知的,这就需要我们先给出一个较为准确的周期估计,再进一步估计周期序列以及外生性因素的影响,进而对时间序列进行预测与检验。然而目前存在的模型对上述问题没有一个很好的解决方案,故本文针对这种情况进行
《传奇》(En Saga)创作于1893年,是西贝柳斯创作的第一首音诗,西贝柳斯认为《传奇》是令他印象最为深刻的作品之一。虽然西贝柳斯将En Saga作为该作品的标题,却从未对其标题的确切含义进行解释,现有文献中关于《传奇》标题含义的诠释内容大致包括民族史诗、小说、画作以及作曲家的自身经历等,经过对相关文献的系统梳理,本文认为源于民族史诗《卡莱瓦拉》的诠释更加符合西贝柳斯当时创作的历史时期特点。《