论文部分内容阅读
随着网络时代的到来和智能手机、计算机的普及,全社会电子商务应用意识逐渐增强,使得电子商务发展逐渐进入密集创新和快速扩张的新阶段,给现有的电子商务网站带来了不小的竞争压力,各大电商平台竞争尤为激烈。为了争夺市场,各大电商平台的商家展开多样化的打折促销活动吸引新客户。同时随着信息技术的发展,越来越多的电商平台开始收集基于客户的数据,因为维持老客户的成本远小于发展新客户。为了有针对性的向潜在重复购买客户开展营销活动,如何利用客户的行为数据,来预测促销活动期间商家的新客户中,哪些会成为重复购买客户引起了研究者注意。本文提出使用基于机器学习的模型融合算法来预测重复购买客户。首先,根据天猫“双11”当天某些商家的新客户及之前半年客户的行为数据,提取客户与商家的相关特征;其次,在特征向量上训练逻辑回归、GBM(Gradient Boosting Machine)和XGBoost(Xtreme Gradient Boosting)单一模型;最后,把最优单一模型的预测结果使用加权混合法进行融合,进一步提高模型的预测效果。本文的工作主要包括以下几个方面:(1)设计特征工程。通过分析影响客户重复购买行为的因素,提出基本数据统计特征、整合特征、复杂特征、年龄与性别特征和近期行为特征五大类特征,并使用XGBoost对特征的重要程度进行评估和选择,提高模型的泛化能力。(2)研究单一模型在特征工程上的应用。选择线性模型逻辑回归和基于决策树的非线性模型GBM、XGBoost分别建模,在对模型进行优化后通过比较发现,非线性模型能更好的利用特征得到较好的预测结果。(3)研究单一模型的融合。为了避免线性模型易欠拟合、决策树模型易过拟合的缺点,使用模型融合算法把单一模型的预测结果进行整合,得到的预测结果与单一模型相比有进一步的提高。