论文部分内容阅读
电子商务网站流失率极高(80%左右的用户只购买一次就再也不会发生再次购买行为)。基于其海量的顾客基础,如果流失率稍有改进,利润的增加都是显著的。然而对于电子商务网站来说,无法准确判断用户是否真正流失。基于5个经过广泛实证研究证实的假设,PARETO/NBD模型是预测客户活跃程度的最重要、也是应用最广泛的方法,通过预测客户的活跃程度,较好的解决了用户流失预测问题。但是,众多研究表明,和大多数市场营销领域的统计模型一样,Pareto/NBD模型在个体客户层次,活跃度预测准确度不高。这制约了它在实践中的应用。 本研究讨论了基于概率模型的数据挖掘方法论,论证了数据挖掘和概率建模相结合的必要性,以此为基础提出了3种概率模型和数据挖掘相结合的策略:用概率模型估计数据挖掘算法所用的先验概率,把概率模型作为数据挖掘算法的评分函数,用组合学习方法提升概率模型性能。 在第一种策略的指导下,本研究通过引入数据挖掘中的朴素贝叶斯算法提高了Pareto/NBD模型对个体客户的活跃度预测的准确率。 PARETO/NBD模型仅使用3个交易信息方面的充分统计量,而在电子商务网站,还有大量关于个体客户的解释变量随着交易信息一同存储下来。概率模型