基于机器学习的电子商务平台重复购买客户预测

来源 :兰州大学 | 被引量 : 11次 | 上传用户:tinggu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来和智能手机、计算机的普及,全社会电子商务应用意识逐渐增强,使得电子商务发展逐渐进入密集创新和快速扩张的新阶段,给现有的电子商务网站带来了不小的竞争压力,各大电商平台竞争尤为激烈。为了争夺市场,各大电商平台的商家展开多样化的打折促销活动吸引新客户。同时随着信息技术的发展,越来越多的电商平台开始收集基于客户的数据,因为维持老客户的成本远小于发展新客户。为了有针对性的向潜在重复购买客户开展营销活动,如何利用客户的行为数据,来预测促销活动期间商家的新客户中,哪些会成为重复购买客户引起了研究者注意。本文提出使用基于机器学习的模型融合算法来预测重复购买客户。首先,根据天猫“双11”当天某些商家的新客户及之前半年客户的行为数据,提取客户与商家的相关特征;其次,在特征向量上训练逻辑回归、GBM(Gradient Boosting Machine)和XGBoost(Xtreme Gradient Boosting)单一模型;最后,把最优单一模型的预测结果使用加权混合法进行融合,进一步提高模型的预测效果。本文的工作主要包括以下几个方面:(1)设计特征工程。通过分析影响客户重复购买行为的因素,提出基本数据统计特征、整合特征、复杂特征、年龄与性别特征和近期行为特征五大类特征,并使用XGBoost对特征的重要程度进行评估和选择,提高模型的泛化能力。(2)研究单一模型在特征工程上的应用。选择线性模型逻辑回归和基于决策树的非线性模型GBM、XGBoost分别建模,在对模型进行优化后通过比较发现,非线性模型能更好的利用特征得到较好的预测结果。(3)研究单一模型的融合。为了避免线性模型易欠拟合、决策树模型易过拟合的缺点,使用模型融合算法把单一模型的预测结果进行整合,得到的预测结果与单一模型相比有进一步的提高。
其他文献
海明威小说中最为核心、最具魅力的是生命主体意识。海明威将自己一生所经历和感受到的生命悲剧投影到他笔下的一个个"硬汉"和"迷惘者"身上,这些人物集中体现着海明威对人类
<正>近年来,全国各地邮政企业都将投递服务质量的提升作为重点工作之一,常抓不懈。原因很简单:在历年的客户有理由投诉中,由投递服务问题引起的投诉占了很大比例。2014年9月2
小微企业正面临着各种成本上升、国内外经济和政策冲击与企业内在缺陷等方面的挑战和制约,转变发展方式刻不容缓。其具体内涵包括调整三次产业结构、内外需求结构和要素投入
随着Web2.0时代的到来,数据量呈几何级态势增长.这些海量的数据不仅结构多样,而且体现出动态性极强的特点.以往应用于小规模数据集上的机器学习算法已经不再适用.大数据概念
<正>随着近年来民办高校艺术类专业的发展,相应的教育培养模式也在与时俱进,针对民办高校这一新兴的教育平台和艺术专业审美情操的培养这一特殊的教育载体,启发式教育
目的探讨两件式尿路造口袋收集腹腔穿刺后渗液的效果。方法将42例腹腔穿刺后引流管周围有渗液的患者按穿刺日期的单、双日分为对照组和实验组各21例。对照组采用无菌纱布作为
隐喻的认知方式是由一类事物理解和经历另一类事物,这一认知模式为探究委婉语的生成方式提供了新的认知框架。本文以认知语言学为理论基础,从认知隐喻的角度对社会语言文化生
2014年5月10—12日,来自全国各地的3000多名英语教师和教研员云集古城西安,参加由北京师范大学外国语言文学学院主办、中国教育学会外语教学专业委员会提供学术指导的"第七届
"物质构成的奥秘"是初中化学的一个重要组成部分,它既是一个重点,也是一个难点,而且,这一节的内容从概念到分子运动都比较抽象,学生不易理解和掌握。本文通过"翻转课堂"的教
<正> 继1926年美国华纳兄弟影片公司试拍有声电影之后,1930年我国的联华影业公司摄制了“部分歌唱配音片”《野花闲草》,《万里寻兄词》就是该片的插曲。(《野花闲草》说的是