基于逻辑回归与LightGBM算法的用户网络购买预测 ——以掌上生活APP为例

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:yyagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G通信的出现,移动互联网和各种智能设备迅速发展,信息流通速度加快,不对称性降低,消费者接触到的电商平台更加丰富,平台之间的竞争愈加激烈。对于平台商家而言,基于经验分析的营销设计已经无法实现精准对接用户需求的目标,传统营销也无法满足增强竞争力的需要,在现今大数据的背景下,只有从数据中分析用户消费行为、挖掘用户购物习惯,才能设计出与实际更匹配的营销手段,提升竞争力,增加盈利。本文以掌上生活APP中优惠券的购买为例对用户网络购买行为进行预测。分别对用户操作日志数据集、用户属性集和购买标签集的结构进行介绍,结合各变量箱线图与实际分布情况判别存在于数据中的异常值,对不同数据类型中存在的异常值采取众数或中位数进行替换。然后对各数据集进行描述性统计分析,从图表中掌握数据形态及分布,初步了解用户购物习惯。从用户操作行为的时间、操作频次与间隔、操作模块与操作方式三个角度挖掘特征,最终与用户属性集的特征合并,将特征扩增至299维;然后对所有特征进行相关性分析,将相关系数大于0.95的25个关联特征剔除,并采用随机森林方法,根据特征对模型的贡献度对特征进行排序,筛选出重要性排名前五十的特征构建特征体系。针对50维特征体系建立逻辑回归模型,通过GridSearch网格搜索法寻找LightGBM算法预测用户购买的最优参数并建立模型,分别对用户购买优惠券的情况进行预测。以F1值和KS值为标准选取预测阈值,比较不同阈值选择标准的差异,发现使用以F1值为标准选取的阈值得到的预测结果具有更高的查准率,有利于平台商户获得更高的投资回报率。然后从预测结果和运行时间两个角度出发分析模型预测整体效果,通过对比两模型的F1值、ROC曲线、AUC值、训练时长和预测时长,发现在预测结果上,LightGBM算法的模型AUC值和逻辑回归模型AUC值均大于0.5,模型预测结果与实际购买情况相符合,模型有效。相较而言,基于LightGBM算法的模型能够达到更大的F1值0.38,且模型的ROC曲线在逻辑回归ROC曲线的左上方,AUC值为0.7946,高于逻辑回归模型的AUC值0.7703,预测效果更好,对用户购买意向的区分程度更高。在运行时长上,逻辑回归模型的训练时长与训练LightGBM算法的时长相近,但逻辑回归模型的预测时长仅为LightGBM算法预测时长的十分之一,可见逻辑回归模型预测速度具有明显优势,在海量数据的情况下,使用逻辑回归模型能够节省更多的时间。
其他文献
遗嘱自由我国继承法确立的一项重要原则,是民事法律“帝王条款”意思自治原则在继承法中的体现。遗嘱自由有利于保障立遗嘱人生前与死后对财产权的处分意愿,有利于维护社会稳定和谐。然则,正如任何自由都有一定的限制,世界上没有绝对的自由,国家在维护遗嘱自由的同时也对遗嘱自由规定了一些限制。但随着经济迅速发展和时代变迁,有关遗嘱自由的限制方面的法律制度在司法实践中逐渐出现了不足、滞后和问题。因此本文从司法案例入
党的十八大以来深入推进法治国家建设,加强中国特色社会主义法治体系,形成完备的法律规范体系也是其中应有之义。其主要有两个方面的要求,一方面是保障各个领域、各个环节都有法可依;另一方面是保障法律体系内部逻辑严密、结构严谨有序。目前,在“二级立法”的情况下,全国人大常委会“越权”行为频发,因此,为保障全国人大基本法律制定权的有效行使、维护全国人大地位的“最高性”,理清全国人大与全国人大常委会之间的立法权
民国时期,县知事兼理司法制度是在全国县级行政地区施行时间最长、范围最广的基层司法制度。以往学界众多学者均指出县知事兼理司法制度存在诸多弊病,包括县知事不懂法律、故意拖延案件审判、收受贿赂等,本文跳脱出以往学者对县知事群体过于负面评价的窠臼,以最新整理出版的民国四川江津司法档案为主要材料,展现出县知事在兼理司法事务过程中的一些可取之处,使得民初县知事群体的形象更加立体和全面。民初的江津县,军阀混战、
随着经济的快速发展,我国保险业的发展也是日新月异,不仅在市场经济中占据重要地位,也越来越受到国家的重视,尤其是现在保险业与各行业联系密切,更容易导致其进行风险的传递,使整个保险系统甚至是整个经济市场都有可能被这种风险而蔓延,引起国家的经济危机,而系统性风险也是导致各个市场和国家的多米诺骨牌崩溃的主要风险,可见系统性风险的控制对于市场经济的危机防范是十分重要的,而现在系统性风险对经济体系的影响以及如
随着电子科技和信息技术的发展,人们的生活已经离不开手机和网络,然而手机和网络的使用离不开运营商的服务,营业厅作为客户与运营商交流沟通的桥梁显得尤为重要。中国移动作为中国三大运营商之一,是全球用户规模、网络规模超前的移动通信运营商,尤其是5G网络刚刚出现,服务的用户和产生的问题越来越多。对营业厅来讲,它不仅要为客户提供服务,更重要的是要注重客户体验,提高办事效率。解决顾客的排队问题显得尤为重要,要解
科技进步必然带来社会发展的新局面,伴随着科技互联网的迅猛发展,社会经济呈现出多样化的趋势,互联网背景下的市场竞争变得日趋激烈,为企业的发展既带来机遇也带来挑战,市场营销变得更多样、更专业、更有爆发力,企业作为市场的重要参与者,面对资源优化配置的新形势以及市场竞争机制的新变化,发展变得愈发艰难,未来的社会市场竞争促使企业做好从内而外的变革准备。互联网技术的运用催生出许多新的商业模式,市场营销的传统模
近年来,昆明借助其地理位置优势,不断扩张对外开放格局,并跻身全球三线城市。同时,房地产行业快速发展,昆明房价一度呈持续稳定增长状态,成为备受关注的热点问题。昆明主城区内已形成多个商圈发展趋势,地铁开通、大型购物广场建成、重点学校开办分校,使得昆明一环内老城区不再具有绝对的地理位置优势,昆明房价无论是整体水平还是空间分布格局都发生了变化,需要加以分析,为制定城市新规划提供必要信息支撑。本文选择昆明市
现如今,高新技术产业的发展潜力逐渐展现,其对经济增长的影响越来越大。山东省作为我国的经济大省,对高新技术产业的发展十分重视。近年来,山东省以习近平新时代中国特色社会主义思想为指导,积极推进高新技术产业发展。在保持传统产业优势的同时,发挥高新技术产业的优化作用,推动新旧动能转换尽快落地,推进山东经济转型发展。为了更好的发挥高新技术产业的优势,带动经济高质量发展,本文以山东省为例对高新技术产业发展对经
随着教育的民主化和科学化进程深入,融合教育大势所趋,已成为特殊教育发展地新方向。根据《世界全民教育宣言》的建议,应该为儿童创造一种支持性的环境,因此融合教育应将有特殊需要的儿童与普通儿童纳入同一个教育体系当中,让受教育权利落实到普通儿童和有特殊需要的儿童身上。融合教育的发展离不开社会各界的支持,而教师则是其中的核心支持要素,教师对特殊儿童的心理接纳是特殊儿童顺利融入普通儿童群体的前提保证。师范生作
在任何统计假设检验问题中,数据分析的结果可能出现两类错误。第一类是否决正确的假设,第二类是未能否决错误的假设。在限定第一类错误的前提下,尽可能地降低第二类错误的概率,而这样的错误概率在给定检验方法的前提下,一般与样本量成反比,即可以通过搜集更多的数据来降低第二类错误的概率,也可以说提升检验的功效。在实际问题中,搜集数据是需要时间和经济成本的。有时候因为客观原因,研究中根本无法任意地搜集更多的数据。