基于后验指标的视频推荐算法的设计和应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yuzao81927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,短视频逐渐成为人们生活中不可或缺的一部分甚至已经发展到全民创作的阶段,导致视频数量与日俱增,造成用户对视频难以选择的问题。对此视频平台利用推荐算法为用户选择特定的视频。在推荐算法中,召回阶段主要是负责对海量的数据进行粗排,得到了一定数量级的视频候选集,这也就直接对最终的视频推荐列表产生了决定性的影响。在此背景下,本文使用后验特征在召回阶段之后设计一个重排序流程,来提升召回阶段的排序效果。本次重排序流程中借鉴了Youtube DNN论文中的建模思想,将提升用户平均播放时长作为优化目标并以此来增加用户的黏性。基于后验指标的重排序流程主要包含了用户日志分析、特征工程的构造、模型训练、在线推理、自反馈优化机制以及最终进行A/B测试这些阶段。在用户日志分析流程中详细的考虑了每个用户行为所对应字段的物理含义,并通过计算公式得到ctr(视频点击通过率)、ppi(视频的展均播放时长)这些后验指标。在特征工程的构造中使用之前计算得到的后验指标,以时间间隔为参数来计算得到相应的后验数据,通过将得到的后验数据聚合起来,构建具有正反馈的后验特征。在特征构造完成后,为了进行模型训练,因而使用后验指标来对视频数据构造标签并说明其标签构造的规则和物理意义。在构建完后验特征和视频数据标签后,设计了基于梯度提升决策树模型(GBDT)的训练流程,并将之前计算得到的后验特征喂给模型进行训练,并由此得到可以对倒排数据进行得分预测的模型。在模型对召回所得的倒排数据进行预测之后,通过在线推理将预测得分和相似度得分进行综合考虑,得到视频的总得分,并建立重排序算法的自反馈优化机制通过调整权重来重新训练模型。将处理好的倒排数据提交给引擎进行截断和排序。最后通过A/B测试来验证重排序的效果,并启动自反馈优化机制。从研究结果分析得到,本文基于后验指标的重排序算法在短视频推荐的背景下,对召回得到的倒排数据进行重排序。在重排序流程中考虑了更加有意义的后验特征,从而提高视频排序效果,提升了用户展均播放时长,降低了后续精排阶段流程复杂度,提高了整体视频推荐的效率。
其他文献
在第三次工业革命的浪潮中,信息化技术开始渗透到各行各业中。随着传感器技术、人工智能技术、多媒体等信息技术被广泛应用于军事领域,这些技术的载体硬件设备及软件服务的数量也在不断扩大,IT基础设施的稳定性直接影响到了其搭载军事系统是否能够正常运行。随着控制中心传统运维管理工作分散、运维职责划分模糊、运维效率低且故障响应时间长等问题的暴露,控制中心IT基础设施管理人员对运维工具的需求越来越强烈。针对上述情
学位
随着近几年深度学习的不断发展,神经网络给机器翻译带来了巨大的提升。而机器翻译所需平行语料的质量越高、分布越广,神经网络就能学习到越多的翻译知识,机器翻译的效果也越好。虽然一些机构或组织致力于提供优质的平行语料,但是在小语种上的平行语料依旧非常匮乏。如何获取更多的平行语料一直都是热门话题。好在互联网拥有海量的数据,很多网站都有多语言版本,其不同语言版本的网页内容一一对应且互译,这些互译的文本可以被挖
学位
随着科学技术的不断创新与发展,汽车行业的生产力得到了稳健的提升。在改善人民生活水平的同时也带来了交通拥堵等尤为明显的负面影响。这无疑给出行人员及交通管理人员带来了巨大的困扰。为了改善这些现象,提出了智慧交通系统的概念。车辆检测与行人检测作为智慧交通系统的核心组成部分,因其具有重大的现实意义,已成为目标检测学科火热的研究方向。近年来,目标检测领域迅速发展,日益成熟,为复杂交通场景下行人和车辆检测任务
学位
随着计算机技术的发展,网络信息传递变得高效准确,这给人们的日常信息交互带去极大的便利性。但随之而来的是,数据安全问题日益严重,重大数据安全事件频频发生。数据安全问题的也已成为限制数字经济发展的关键要素。传统的加密方式日益表现出不足和乏力。一种新型的加密方式,基于内容关联密钥加密技术,依托于密钥和密文之间的离散关系,来保证数据加密的安全性。内容关联密钥加密算法可以提升用户文件加密的安全性,但如何保管
学位
分布式机器学习当前已成为人工智能最热门的研究领域之一,随着大数据的逐渐兴起,数据开始发生爆炸式的增长,传统的机器学习在单机上进行庞大的数据存储和计算相对困难,因此,将模型部署到多台机器上进行分布式计算是一种必要的解决方法。针对上述问题,基于Hadoop的深度学习分布式训练平台支持Tensor Flow、Py Torch等深度学习框架进行分布式训练,支持工作流的图形化配置、部署与管理,以及多种算法的
学位
如今,桥梁在交通运输中的重要性日益提高,不仅带来生活的便利,而且促进经济的发展。然而,桥梁在建设运营期内仍然存在一些危险,因此对于桥梁的各类信息监测显得格外重要。目前大多监测还是人工定时巡检为主,这种方法不仅效率低,也不能进行实时监控。针对这一问题,本文提出了自动化监测来维护桥梁的健康,采用各类自动化监测传感器,对现场数据实时采集并远程传输到某云服务中心,所有的关于桥梁的数据集中到云端,进行专业的
学位
随着人类社会的发展,在世界范围内,能源匮乏的问题也渐渐显现,近年来,人们越来越关注节能环保问题。而建筑的耗能是现代能源消耗中的重要组成部分,如何更加高效的管理现代建筑的能源分配以及能源结构成为目前亟待解决的问题。因此针对目前国内建筑能源供应基于人为经验无法高效的利用能源的困境,提出了一个基于物联网数据的某大厦能源管理系统。通过对某大厦的能源相关设备的关系建模和管理,再应用实现的能源预测算法和能源需
学位
对于快递行业而言,考核是保证质量和成本的关键。无论是质量还是成本,都需要通过考核来进行控制。同时快递行业的业务繁杂,一个快递包裹需要经历的阶段就包括揽收、揽收中心进港、揽收中心出港、转运中心进港,转运中心出港、回货、交货、派签等,业务多而杂。在信息化的时代,哪怕是快递这种接近互联网的行业,仍存在着使用人工或较为传统的方式进行考核的现象。面对如此繁多的业务及如此巨大的数据量,显然传统的考核方式已经无
学位
随着软件工程的发展与应用,人们生活中越来越离不开软件的帮助,软件系统也日益庞大,为了维持软件的稳定性和软件服务的质量,在软件的开发和维护的过程中不得不得花费大量的人力在软件测试上,但是人工测试有着很高的成本。此外,软件测试有很大的重复性简单工作,这些工作一方面会消耗软件工程师宝贵的精力,同时也给企业带来了巨大的成本负担。随着大数据相关技术的发展,测试数据也能挖掘和分析出更有价值的信息,但是仅凭人工
学位
随着社会经济发展与高校扩招政策的推行,高校毕业生人数逐年上升,就业竞争压力日趋加大,毕业生心理压力也随之加重,人工疏导无法满足庞大的需求,需要一种更高效便捷的方式来处理,由此聊天机器人应运而生。在自然语言处理中,基于检索技术的聊天机器人无法应对没有预先定义的场景,灵活性较差,而基于深度学习的生成式聊天机器人扩展性更强,系统开发效率也更高,有着非常广阔的发展前景。论文对高校毕业生就业心理压力产生的问
学位