大规模推荐场景下的向量化召回算法设计

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kkrriikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和信息技术的发展,信息过载问题日益加剧,很多互联网公司的产品纷纷推出千人千面的推荐系统,帮助用户高效地获取其感兴趣的内容,从而增加用户粘性,提高用户转化率,达到公司商业化目标持续增长的最终目的。目前业界使用的推荐系统主要包括召回和排序两个阶段。召回阶段负责从海量候选中筛选出用户潜在感兴趣的内容作为排序阶段的输入,优化召回服务可以为排序阶段提供更优质的内容,进而提升用户体验。为此,论文针对大规模信息流推荐场景进行了以下向量化召回的研究工作。论文首先设计了一种基于FFM的嵌入式特征选择方法,对原始特征集进行筛选,从而可以在对模型召回率的AUC无损的情况下减少模型大小,节省存储资源。然后,针对使用展现未点击的负样本训练召回模型会导致召回率低下的问题,设计了更贴近内容候选集分布的负样本挖掘方案,其中包括随机负样本,展现未点击的负样本以及困难样本。接着,提出了改进的双塔DNN模型和端到端的特征选择模型。前者在传统的双塔召回模型基础上加入FFM特征交叉层,将用户向量,物品向量和上下文向量进一步交叉。后者将Res Net的跳跃连接结构和SENet的多通道混合结构分别嵌入到用户子图和文章子图的计算中,让模型端到端的筛选出重要的特征。然后,针对向量化召回索引分层可导航的小世界在实际应用中存在“孤岛”的问题,提出了启发式裁剪的优化方案,增加了索引中图的连通性,提升了近似近邻检索的精度。最后,论文在某DAU过亿的信息流推荐场景对以上向量化召回的研究内容进行了实践,取得了离线指标和在线A/B指标的一致性上涨,提升了用户在信息流推荐的体验,进而给公司带来了更高的商业化收入。
其他文献
随着“大众创业,万众创新”的势头风生水起,创业正在成为一种新常态,各地政府也在不断出台新政策为创业的人清除障碍。在这样一种全民创业的时代背景下,诞生了大量的创业孵化社区。虽有很多创业孵化社区的存在,但目前存在的创业孵化社区管理系统不仅功能单一、而且交互性差,难以满足社区的需求。基于此目的,一个集功能齐全与交互性良好为一体的创业孵化社区管理系统应运而生。系统采用B/S架构,利用Spring Boot
学位
伴随着移动互联网的发展,越来越多的信息以电子形式存储在移动设备当中,如何有效地保障这些信息的安全是值得各方重视的问题。一般认为对文件进行加密能够较为有效的保障信息的安全,而在各类文件中以视频类型的文件结构最为复杂、蕴含的信息最为丰富,所以对视频文件加密技术的研究具有较为重要的地位。视频文件有其自身的特性,而大部分的传统加密算法并没有在加密过程中针对其特性对视频文件和其他文件进行区分,导致传统加密算
学位
在工业生产中,标准的工作着装是安全工作生产的重要保障,在建筑工人、电力维修、交警等工作群体中显得尤为突出。为了降低工作中的安全隐患,目前,对工作人员的安全帽,工作服等着装检测,大多停留在领导抽查的状态,监管效力有限。为了降低人力成本,针对在电力场景下的实际应用,系统采用Alpha Pose网络模型来检测人体骨架,在确定人体骨架后,对如头部、身体、脚等部分进行分类处理。通过Alpha Pose网络模
学位
社区是复杂网络中的一种内部紧密连接,外部稀疏连接的结构。社区发现就是在复杂网络中找出社区结构。图神经网络是一种用于处理图数据的神经网络,其中的图卷积网络(Graph Convolutional Networks,GCNs)和图注意力网络(Graph Attention Networks,GATs)近年来逐渐被运用于社区发现任务。此外,还有将马尔可夫随机场模型(Markov Random Field
学位
图像识别技术属于图像处理技术的范畴,是模式识别中的一种。图像识别技术已经落地使用于实际的生活当中,比如交通、金融、安防等领域。该技术的原理就是对一张图像,在给定的图像类别集合中,找出一个和该图像匹配度最高的类别,然后作为该图像所属类别的结果。提升有关图像识别算法的准确率,减少识别消耗的时间有着重大的研究意义,对技术的落地应用都有着深远的影响。本文的主要内容是基于主成分分析和线性判别分析的图像识别算
学位
虚拟资源是互联网企业最重要的产品之一,对于这些资源的集中管理是十分必要的。某公司某部门主要负责该公司一些关键的虚拟资源,每年这些虚拟资源都会带来很大比例的营收。该部门最初只有一种虚拟资源,随着业务的扩展,在原来的基础资源上逐渐开发出了多种衍生虚拟资源。另外,节假日的时候,该部门为了增加收入,会进行一些营销活动,需要一次性给用户发放多个虚拟资源。原有的直接调用各个虚拟资源提供的接口的模式,随着虚拟资
学位
随着生物信息学的不断发展,蛋白质残基接触预测和蛋白质结构域预测的研究也越来越多,准确率也越来越高。蛋白质残基接触图包含了蛋白质二维结构和三维空间距离信息,是研究蛋白质三维结构的重要步骤。蛋白质结构域对于解析蛋白质结构和理解蛋白质进化与功能有很大的作用,预测蛋白质结构域是蛋白质结构预测的第一步。论文主要是利用蛋白质残基接触图对蛋白质结构域进行划分。首先改进了目前蛋白质残基接触预测最好的网络Respr
学位
随着医学显像设备的高速发展,正电子发射计算机断层显像(PET,即positron emission tompgraphy)设备面世并在医学可视化领域扮演着越来越重要的作用。与此同时面向PET数据的三维可视化需求也越来越多。然而,目前三维重建方法多应用于CT数据而对PET数据进行数据可视化的方法相对匮乏,因此研究相应的解决方案具有重要的意义。文章对常见的三维重建算法进行了研究,在分析比较面绘制体绘制
学位
智能机器人和无人车具有广阔的应用前景,路径规划作为其核心问题,引起了广泛关注。路径规划问题是在给定起点和终点的情况下,智能体通过各种限制条件比如障碍物等规划出一条最优路径。强化学习模仿人类的学习过程,通过探索环境所得的环境回报作为训练数据,自行训练,不再需要预先设定好的训练数据,适合作用于未知环境,适用于路径规划问题。强化学习在路径规划下的使用,已经取得了不错的效果,但是在实际使用中,由于环境可能
学位
随着现代生活节奏的加快,睡眠疾病和精神疲劳受到人们的广泛关注。而心率和呼吸是其中十分重要的诊断指标,因此准确检测心率和呼吸具有重要价值。现有的研究大多基于额外的精密检测设备,成本较高且不易用于日常检测,所以提出一种便捷且高精度的检测方法是很有必要的。心冲击图信号(BCG,ballistocardiography)相对于其他人体特征信号极具便捷性,且测量过程中可以做到与人体表皮无接触。其中BCG信号
学位