基于lightGBM的联通话费购推荐系统研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:llhxdlb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    联通话费购是联通在线为联通用户提供的专属权益电商平台,可以使用话费支付、第三方支付充值话费、购买各类权益。本文实现了在联通话费购平台搭建基于lightGBM算法的推荐系统。通过分析用户行为,构建用户、商品的动态特征,用协同过滤召回的基础上,利用lightGBM算法做精准排序,预测用户对于商品的购买率。经过实际验证表明,推荐的召回率达到82.3%,下单转化率为30.9%,有效提高了用户的点击付费转化。
  【关键词】    推荐系统    lightGBM    特征工程    集成学习
  一、项目背景
  联通话费购商城是中国联通提供的新型通信账户消费业务,是联通用户购买多种会员权益的专属商城。为用户提供话费计费和第三方支付等多种支付方式。实现用户一站式购买音乐、视频、小说、教育、娱乐等众多互联网会员权益及知识付费类数字商品,现有自营会员产品话费购、尊享黄金会员以及自营虚拟货币话费券。目前,话费购商城涵盖影视会员、出行、音乐、知识付费、社交、工具等八大产品类80款会员权益,近400余款商品。本文通过为话费购搭建推荐系统,智能化运营用户,实现千人千面,提高商品的曝光、点击与转化。
  推荐系统的核心在于推荐算法,目前主流的推荐算法分为基于用户、基于内容、基于标签的推荐[1][2]。比较经典的协同过滤算法可解释性强,但个性化比较差。Xgboost等集成的树模型[3][4][5]具有训练速度快,预测精度比较高的优点,但容易过拟合,且容易受到正负样本不均衡的影响。本文采用协同过滤召回,lightGBM算法[6]排序的方法,通过前期埋点获取用户真实的点击、浏览、下单数据,并进行可视化分析。利用协同过滤算法召回半年内的消费用户,划分训练集和测试集,根据用户是否在指定时间段内下单区分正负样本,构造用户基础特征和消费行为特征,基于lightGBM算法建模,预测用户对于全部商品的购买概率。最终采用瀑布流的形式在推荐专区按照用户的预测购买率对商品进行排序展示。
  如图1为话费购推荐系统的框架图,用户在页面的点击、浏览、购买数据经过批处理后保存到集群中。经过推荐算法的召回、排序、过滤三个阶段,为用户计算推荐商品及得分,并将推荐结果保存到hbase中,供前端调用。最后将推荐结果以“猜你喜欢”专区上线并评估效果,根据用户的点击、订购等反馈丰富正负样本,迭代优化模型。
  二、相关算法
  本文用到的算法是基于物品的协同过滤和lightGBM算法。
  2.1协同过滤
  通过前期的数据分析,话费购的商品数量不多,用户的行为比较集中,大部分用户会重复订购之前订购过的商品,所以采用基于商品的协同过滤算法(item-based collaborative filtering, itemCF)做用户召回。itemCF是基于用户的行为数据计算商品之间的相似度,维护商品相似度矩阵,相似度的计算方式如公式(1)所示[7],其中N(u)表示用户有过行为的商品集合。然后根据用户点击或订购过的商品,计算与其相似度高的商品作为推荐商品。
  算法优势:可解释性强,适用于商品少的情况,商品都有机会被推荐出来。缺点:容易受到热门商品的影响。
  2.2 lightGBM
  lightGBM(Light Gradient Boosting Machine, lightGBM)[6]是微软研发的高效实现GBDT的开源框架,具有训练速度快、精度高的优点。通过直方图算法将连续特征值离散化,采用按叶子生长的leaf-wise算法,并使用单边梯度采样GOSS(Gradient-based One-Side Sampling),采用大梯度样本和随机挑选的小梯度样本计算信息增益,划分节点,保证准确性的同时减少计算冗余的计算成本。使用互斥特征绑定EFB(Exclusive Feature Bundling)将不同时为零的互斥特征进行捆绑,合成新特征,减少特征数量,通过归集为图着色问题,使用贪心算法求解。
  算法优势:更快的训练速度、更低的内存占用率、并行计算,且支持类别特征。缺点:容易过拟合,需要通过限制树的深度等方法增加泛化能力。
  三、建模过程
  本文所采用的数据为联通话费购真实的用户行为数据,所用数据表包括曝光表、点击表、浏览表、下单表,及商品表。采用2020.9.27-2021.3.27共6个月的数据,字段包括用户id、商品id、专区id、用户行为(点击、浏览、下单)、操作时间、下单金额、浏览时长、是否为包月商品、是否首次订购等。以公众号商城的数据试验,召回的数据集中用户-商品的组合数为973476。采用协同过滤算法为用户召回商品。选取有过点击、浏览、下单行为的用户及对应商品划分lightGBM模型的训练集和测试集,进行排序。
  3.1数据处理与可视化
  3.1.1数据预处理
  数据处理与分析是模型构建的第一步,本文主要做了以下几种数据处理:
  1. 剔除话费购会员、话费券,并根据运营策略过滤部分活动商品,避免前台页面展示重复。
  2.剔除空值、异常值,处理字段类型,对于有空值的字段读取到dataframe时,会自动处理为浮点型,所以先剔除空值再将品牌id等字段转为整型;并将操作时间转为datetime64[ns]。
  3. 关联子商品表、品牌表、专区表,过滤下架商品及活动商品,形成最终的商品详情表。并对曝光表、点击表、浏览表、下单表,关联商品详情表。
  4.补充浏览数据,话费购的商品入口比较多,埋点采集及数据存储过程中,可能会遗漏部分浏览数据,根据用户-商品的下单情况,补充遗漏的浏览数据。其中,根据商品的平均每用户的浏览次数补充浏览条数,根据商品的每用户平均浏览时长补充浏览时长,根据支付时間补充浏览时间。   3.1.2可視化分析
  基于以上数据分析了话费购的用户画像、用户的购买偏好分布、热销商品分布以及用户消费分布,以下是分析的部分结果:
  1.热销商品分布
  如图2可以看出,商品的销售分布符合长尾理论,热销商品集中在前10种,用户的消费特征比较单一。
  2.用户消费分布
  如图3,98%的用户只订购5种以下的品牌,66%的用户重复订购率高于50%,说明大部分用户会选择购买之前订购过的商品。
  3.2特征工程
  本文分别针对用户、商品、用户-商品构造特征。结合缺失率、相关性、特征重要性等方法筛选特征,共构造38种特征。
  3.3建模
  首先对数据集按照时间划分为训练集和测试集,选择1.27-2.25一个月的浏览、下单数据作为训练集,选择2.26-3.25一个月的下单数据作为标签集,在标签集中下单的用户-商品作为训练集的正样本,其余为负样本,正负样本比为1:1.88。测试集选择2.1-2.27一个月的数据,根据2.28-3.27一个月的下单数据作为正样本,正负样本比为1:1.63。
  分别对训练集和测试集构造以上特征,采用5折交叉验证,对训练集建模,采用lightGBM的具体参数如下:
  利用协同过滤算法为每个用户召回商品,结合lightGBM的整体建模过程如下:
  四、结果评估
  基于lightGBM算法的预测,采用传统的准召率评价测试集效果,和逻辑回归对比效果如表3所示:
  结合协同过滤算法,以真实数据评估效果,用户的覆盖率为85.2%,推荐专区Top10的召回率为82.3%,其中召回率的定义如公式(2)所示,T(u)表示用户真实订购的商品集合,R(u)表示推荐的商品列表。对比推荐专区上线之前,整体的下单转化率提升4%。且推荐专区的下单转化率远高于其他专区,如图5所示。
  五、结束语
  本文采用基于商品的协同过滤算法召回,以lightGBM算法排序,并结合运营策略过滤部分商品,完成基于话费购的整套推荐系统的搭建。模型每日更新,将推荐结果存储到hbase中,开发接口供前端调用展示,接口异常率为1.6%。实际效果证明,推荐专区的上线有效提高了用户的下单转化率,且Top10的推荐商品能覆盖大多数用户的购买需求,具有重要的现实意义。
  参  考  文  献
  [1]朱扬勇, 孙婧. 推荐系统研究进展[J]. 计算机科学与探索, 2015, 9(5):513-525.
  [2] Almutairi F M , Sidiropoulos N D , Karypis G . Context-aware recommendation-based learning analytics using tensor and coupled matrix factorization[J]. IEEE Journal of Selected Topics in Signal Processing, 2017,11(5):729-741
  [3] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001,29(5):1189-1232.
  [4] Chen T. Guestrin C. XGboost: A Scalable Tree Boosting System[C]//Proc of ACM Sigkdd  International Conference on Knowledge Discovery & Data Mining. 2016:785-794
  [5] Chen T, He T, Benesty M. XGboost: Extreme Gradient Boosting[J]. 2016,5(9):222-208.
  [6] Ke G L, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]//Advances in Neural Information Processing Systems. 2017: 3146-3154.
  [7]项亮. 推荐系统实践[M]. 人民邮电出版社, 2012.
其他文献
【摘要】 信息网络的高速发展已经成为当前计算机网络技术的发展趋势,而尽管网络安全管理技术正在慢慢地更新与发展,但网络信息安全管理的整体体系仍处在不成熟的阶段。对此,相关专业人员应当着重分析网络信息安全管理系统存在的安全隐患,并针对安全管理技术所覆盖的领域做出相应的探索与改革,创新出切实有效的网络安全维护体系,并以此来提高我国网络领域的安全性。  【关键词】 网络信息安全 管理技术 计算机应用
【摘要】 在通信工程建设中,通信线路为关键部分,其是整个通信网络中的“脉络”,会对通信系统的整体运行水平带来显著的影响。随着社会经济的发展,社会各界对通信工程的整体建设品质提出更高的要求,在此背景下,切实提高通信线路施工技术的应用水平为重要的突破口。鉴于此,文章着重围绕通信线路施工技术展开分析,提出关键的技术要点。  【关键词】 通信工程 通信线路 施工技术 运用分析  一、通信工程中通
【摘要】 电磁兼容设计的目的有两个,一个是保证电路之间、模块之间、系统内部的自兼容,另一个是顺利通过电磁兼容试验,随着电磁兼容要求纳入强制认证,大部分硬件设计师已经开始有意识开展电磁兼容设计,GJB151B-2013《军用设备和分系统电磁发射和敏感度要求与测量》作为军用机载电子设备电磁兼容要求,约束着机载电子设备电磁兼容设计,本文从GJB151B中筛选出针对机载电子设备常用若干项试验项目和要求进
【摘要】 大运河是大型线性文遗的代表,科技的创新为运河文化的继承与传扬提供新思路,朝着数字化的方向活态传承。对此,本文以扬州运河文化为例,立足于运河资源开发现状,挖掘沿线与街区的生态资源与历史遗产,并在先进科技的支持下创建数字化发展构架。力求通过培养非遗传承人、建设运河文化体验馆、继承当地非遗文化等方式,振兴运河文化经济带,带动运河沿线经济发展。  【关键词】 扬州运河 运河文化 数字化建
【摘要】 在我国大力鼓励通信工程对外发展的背景下,中国通信工程项目正得到了快速的发展机遇。但是,海外通信工程受到当地条件、工程环境等多种因素影响,使得工程项目单位受到了多种挑战。如何将国内成熟的经验带出去,同时结合当地的施工方法与管理手段,取得项目的成本与进度合理化控制,成为了目前摆在施工单位面前的课题。本文针对海外通信工程的成本控制与进度管理进行了深入的分析,希望对相应海外工程的合理发展提供参
【摘要】 人工智能已经成为当下的热门话题,“人工智能+”也充分运用到了各行各业当中去。在社会经济条件和技术水平不断提升的背景下,人工智能技术依托大数据时代特征发挥了前所未有的时代优势。本文着眼于大数据时代人工智能在计算机技术中的应用层面,对各项应用技术以及相应的使用展开案例型分析和探讨,以及对未来人工智能在计算机网络技术领域的发展有所裨益。  【关键词】 大数据时代 人工智能 计算机网络技
互联网和通信技术的发展,催生了高校大量的在线教学实践.本文以某校《组织行为学》在线课程作为分析对象,对在线教学相对于传统教学模式的比较优势和弊端展开探讨,对未来的发
【摘要】 在我国随着社会经济的发展,国家的建设越来越完善,不仅增加了城市的建设,也增加了农村的建设。而随着科技的进步科技化也逐渐走进了农村建设当中,引领农村建设和发展,促进新农村的形成。在此过程中,农村信息化是当前建设中重要手段,不仅促进了新农村的建设,也促进了农业现代化的发展,推动了农村经济走向世界化,增加农民的经济效益,成为新农村农民学习农业科技的主要动力和媒介。由此可见,在新农村的现代化建
【摘要】 科技在发展,时代在进步,鉴于此种背景下,全球迎来了以大数据为基础的新时代,其为人们日常的生活与工作提供方便,在大数据的影响下,高校教育也随之步入了智慧时期,主要以“物联网和数字技术”作为基础,在建设智慧校园的同时,要想充分发挥出大数据的潜在优势,需进行个性化、智能化、网络化教育平台的搭建,这是高校智慧校园实现建设的主要途径。为此,本文简析大数据背景下智慧校园网络平台的建设价值性,在融合
【摘要】 入侵检测系统是一种有效的网络安全防护手段,已在工业控制网络得到广泛应用。然而,随着网络技术的发展,网络攻击变得多样化和复杂化,使得入侵检测系统需要具有更强的检测性能。本文从烟草生产工业控制网络的特点着手结合了分布式入侵检测系统的优势,构建了一种分布式的烟草生产工业控制网络入侵检测模型。  【关键词】 网络安全 烟草生产工业控制网络 分布式入侵检测  Abstract: Intru