论文部分内容阅读
重复购买行为是营销学领域的研究热点。随着电子商务的快速发展,参与网购的用户越来越多,如何基于大数据预测用户的重复购买行为成为电商平台非常关心并想解决的问题。重复购买行为预测技术可应用于电商平台推荐系统中,帮助商家识别具有重复购买意向的用户,从而实现营销信息的精准投放。准确预测重复购买行为的关键在于通过模型算法挖掘出数据中所隐含的用户行为规律。然而,由于网购用户群体规模巨大且不同用户群体的购买行为规律具有很大的差异性,这使得数据挖掘工作变得异常困难。传统的机器学习算法在预测时忽略了用户购买行为规律的差异性,难以取得好的预测效果。因此,本文着重研究如何提高机器学习模型在重复购行为预测问题中的泛化性能,使其克服用户行为规律的差异性对预测性能造成的影响。本文在对现有机器学习算法进行研究的基础上,提出了细分化集成学习方法。该方法可以从数据集中学习到多种用户购买行为规律,提高了模型的预测性能。论文的主要研究工作如下。(1)重复购买行为影响因素研究。通过对电商平台用户购买行为数据的分析,从用户、商家以及商家和用户的关系三个方面挖掘影响重复购买行为的重要因素,并构建了52种与重复购买行为相关的特征。(2)现有机器学习模型的对比研究。论文对常用的机器学习方法进行了研究。实验结果表明,现有的机器学习模型预测精度普遍不高。Logistic回归、神经网络、决策树等单一模型在解决样本类别不均衡问题时存在局限性。集成学习方法虽然可以通过欠采样的方式解决类别不均衡问题,但无法有效的学习到具有差异性的用户购买行为规律,预测效果同样不理想。(3)细分化集成学习策略研究。考虑到目前的机器学习方法在预测重复购买行为时存在的局限性,论文对Bagging集成学习方法进行改进,提出了细分化集成学习。细分化集成学习通过在Bagging中设置强规则结合策略,使其能逐层过滤样本数据,从而实现对用户购买行为数据的细分。这种新的集成学习方法可根据细分后的数据集学到多种购买行为规律。实验结果表明,与现有的机器学习方法相比,细分化集成学习具有更好的预测效果。(4)预测模型的泛化性能研究。从泛化误差的角度对细分化集成学习模型的泛化性能进行了研究。通过对模型的泛化误差进行分解发现,细分化集成学习的样本过滤机制可以降低方差,因此具有更好的预测性能。