【摘 要】
:
近些年,随着互联网技术日新月异的发展,人们随时随地都在产生数据。这使得数据呈现爆炸式增长,在这个背景下,推荐系统便成为用户在海量数据中过滤出有效信息的主要方式。然而在实际应用中,由于存在线上服务使用的特征和线下模型训练使用的特征不一致、离线特征无法反映用户真实状态、用户特征缺失等问题,导致模型推荐效果不佳、用户的体验不好,同时高维特征拼接效率低下且系统稳定性不足,严重浪费计算资源。针对以上问题,本
论文部分内容阅读
近些年,随着互联网技术日新月异的发展,人们随时随地都在产生数据。这使得数据呈现爆炸式增长,在这个背景下,推荐系统便成为用户在海量数据中过滤出有效信息的主要方式。然而在实际应用中,由于存在线上服务使用的特征和线下模型训练使用的特征不一致、离线特征无法反映用户真实状态、用户特征缺失等问题,导致模型推荐效果不佳、用户的体验不好,同时高维特征拼接效率低下且系统稳定性不足,严重浪费计算资源。针对以上问题,本文首先回顾了国内外推荐系统的发展历史,总结出目前推荐系统存在的主要问题。在此基础上,本文针对工业界推荐系统离线框架中线上线下特征不一致的问题,搭建基于主流的实时计算框架Flink推荐系统,并将其应用于游戏商品推荐场景中。同时为了更加合理的测试算法的效果,本文搭建出AB Test在线流量分层实验框架。基于该框架,本文搭建的推荐系统取得较好的推荐效果。本文的主要工作总结如下:(1)本文通过分析离线样本拼接流程,实验得出离线样本拼接存在线上服务使用特征和模型训练使用特征不一致的问题,并通过Flink实时存储用户状态解决上述问题。本文通过在线真实游戏商品推荐场景进行算法实验,得出使用实时样本拼接的模型的推荐效果,曝光购买ARPU(Average Revenue Per User)比使用离线样本拼接训练的模型提升了10%。另外为了业务更好的迁移,本文将该代码功能进行模块化,即系统使用者只需要编写配置就可以完成新任务的发布。(2)针对特征管理不规范、特征缺失问题,本文设计出特征管理模块,实现将特征进行统一化管理。该模块方便系统使用者添加或删除特征。同时,为无特征用户添加默认特征,尝试解决用户无特征问题,使曝光ARPU效果提升了2%。(3)针对重复开发问题,本文将系统功能抽象化,方便系统使用者部署于不同的业务场景。实验发现部署新任务上线时间缩短50%,同时规范了上线部署流程,减少犯错误的空间。(4)针对实验过程中算法测试效率低下且不合理,本文通过搭建框架服务,进行AB Test流量分层实验,通过切分流量的方式尽可能多的测试算法的效果。另外本文使用实时计算框架Flink对算法的效果指标进行实时统计,以便尽快做出合理的决策。综上所述,本文不仅搭建出一套高可用、高可靠的实时商品推荐系统,并且通过系统设计解决了线上线下特征不一致问题,最后通过AB Test分层实验进行验证。实验验证实时样本拼接和将变化比较快的特征实时化可以明显提高模型预测的效果。
其他文献
目的 利用真实世界数据,从药物有效性、安全性和经济性角度出发,利用社会网络分析研究医师用药习惯,为按疾病诊断相关分组(DRG)付费下合理用药提供思路。方法 选取2021年1月1日—6月30日某三级甲等综合医院出院患者信息,基于DN-DRG分组器,获取甲状腺大手术组(KD19)所有合并用药,绘制整体网络关系图,根据凝聚子群网络的树形图开展用药方案优化。结果 共纳入80种常用药物,通过对1 681例甲
图书馆是每个高校的核心教辅机关,是师生学习提升学习能力的重要场所。面对数以百万计的图书时,师生往往难以找到合适的、真正需要的书。检索主页热门TOP-N推荐书籍对于个人需求过于笼统,不能起到针对性效果。为此,个性化的推荐系统是高校图书馆发展的新方向。传统的推荐系统主要基于学生借阅记录的情况进行的协同过滤推荐,或者挖掘书籍间相关性TOP-N推荐,可以面向大众。但对于特定的群体——相同专业不同学习层级、
互联网技术的迅猛发展,使得互联网用户生产和面临的数据不断增加,从而使得人们面临“信息海洋”的困境。因此推荐系统应运而生,成为帮助用户在海量信息中过滤有效信息的首选方式。在推荐系统的实际应用中,由于原始数据高维稀疏,用户或物品相似度计算片面以及推荐结果实时性差等问题,使得用户的体验并不良好。本文为了更好地优化推荐系统,以大数据处理技术为基础对推荐系统的系统架构和推荐算法两方面进行改善。在推荐系统架构
真实-虚拟-构造仿真(live-virtual-constructive,LVC)实验中存在大量异构的仿真资源对象。针对传统对象模型已无法满足信息化战争对武器装备体系快速响应的实验任务需求问题,开展基于对象元模型的LVC实验资源服务化方法研究。给出基于对象元模型的资源描述方法,在对象交互、消息传递、远程方法调用3类资源服务化基本形式基础上,设计虚拟化状态对象(virtualization infr
传统电视行业在计算机技术的发展下已完成智能化升级,智能电视使得用户可以方便快捷地享受视频服务;与此同时互联网规模的不断扩大使得数据量与日俱增。如何从繁多的视频资源中快速且准确地发掘出用户感兴趣的视频,是当前智能电视的视频服务提供方所面临的一大问题。作为解决“信息过载”问题的一种手段,推荐系统通过分析用户的行为,在物料库中做筛选,可以帮助用户发现自己的潜在兴趣。准确、及时的视频推荐系统可提升用户满意
淀粉是人类膳食的主要成分,长期大量使用含快消化淀粉多的食物易诱发糖尿病、肥胖等慢性综合征,而慢消化淀粉和抗性淀粉则有利于缓解这些症状。蛋白质能与淀粉发生相互作用并减缓淀粉的消化,进而影响餐后血糖的上升。本文以燕麦蛋白、藜麦蛋白、黑豆蛋白和扁豆蛋白4种外源植物蛋白与小麦淀粉为研究对象,研究外源植物蛋白对小麦淀粉体外消化及血糖指数的影响,进一步探讨4种外源植物蛋白对α-淀粉酶和α-葡萄糖苷酶两种淀粉消
新闻资讯一直是人们获取社会实时动态的重要来源,随着科技发展进步,获取新闻讯息的媒介已经逐渐从报纸和电视,逐步演变成互联网平台。互联网的快速发展,人们每天接触的资讯也越来越多,信息过载的现象也随之出现,因此越来越多的人员开始研究推荐算法。本文基于辽宁离退休老干部平台,通过项目方提供的用户与新闻数据,结合现有的推荐算法、深度学习、文本分类等技术,实现了一个基于深度学习的新闻推荐系统。本文研究了深度学习
传统压榨法制油具有成本低、毛油品质较高等优点,但在制油过程中抗氧化物质的损失会降低油脂的抗氧化性,同时得油率较低,需要对压榨法制油工艺进行优化。微波预处理能提高油料的得油率,增加营养物质的含量,在提升油脂风味的同时,改善其抗氧化性。花生油有着较高的营养价值和经济价值,在自然条件下储藏的过程中,容易发生氧化反应导致酸败,因此需要提高其抗氧化性。芝麻油因其较高的木脂素含量,具有良好的抗氧化性,是良好的
本研究选择日本藤野辣椒专用砧木作为辣椒嫁接的砧木,对寿光当地普遍种植的黄绿皮辣椒圣丽1号、螺丝椒2号以及大果尖椒寿禾辣帝1号品种进行嫁接。对嫁接后辣椒苗的生理指标、产量、品质及对疫霉病抗性进行了测量,研究结果如下:套管嫁接方法对辣椒进行嫁接,不仅操作方便,嫁接成活率高达98.5%。比较生长势,三个品种的嫁接苗在株高、茎粗、叶片数的增长速率均低于自根苗。在其他生理指标测试中发现,黄绿皮辣椒圣丽1号及