论文部分内容阅读
随着电子商务的迅猛发展以及移动终端技术的不断完善,网上购物作为一种新的消费方式越来越受欢迎,每天都有数以万计的网上浏览行为发生。人们随时随地都能够在线浏览商品,他们或点击、或收藏、或加购物车、或购买,因此电子商务领域逐渐积累了大量的用户行为日志数据,有效地挖掘这些数据进而得到有价值的信息现在是一个热门的研究课题。部分用户会重复访问电子商务平台或重复访问电子商务平台上的商家,基于用户行为日志数据预测用户的再访问行为蕴含着巨大的价值。精准和个性化的再访问预测,有助于电子商务平台统筹全局、合理安排资源、智能管理商铺和提供更好的服务;有助于商家对用户进行精准营销,并通过发放购物券等形式吸引消费者以此达到提高收益、降低成本、提高投资回报率的目的;有助于客户接收到符合自己兴趣爱好的个性化推荐,节约其时间和金钱成本等。本文主要根据电商平台的客户基本信息数据和用户行为日志数据,针对现有再访问预测工作存在的不足,对用户再访问预测问题进行深入研究,提出两个再访问预测模型。本文的工作和贡献如下:1.提出一种基于HMM的用户对平台的再访问预测模型。该模型使用了HMM研究用户对电子商务平台的再访问行为。具体来说,首先已知观测序列数据,利用Baum-Welch学习算法学习模型的参数,其中包含了隐数据状态序列;然后根据上一步学习好的模型,再已知观测序列数据,利用前向算法计算t+1时刻某用户可能的行为。基于真实的电子商务数据对提出的模型进行验证,实验结果表明,该模型预测用户对电商平台的再访问是有效的。2.提出了基于集成学习的用户对商家的精准再访问预测模型。本文首先介绍了基于集成学习的精准再访问预测算法Ensemble Learning-based Revisit Prediction(ELREVP)。具体的,该方法首先将原始电子商务平台用户行为日志数据预处理;然后将预处理后的数据从用户、商家和用户-商家相互作用三方面建立再访问预测特征工程;然后基于提出的关于再访问的相关特征使用集成学习算法Stacking进行用户对商家的再访问预测。集成学习方法中用到了一些基本的统计学习方法,包括决策树、随机森林、逻辑回归和神经网络。同时该方法还解决了样本类别不平衡问题和投票机制的最佳阈值选择问题。最后基于该方法做了用户对于商家的精准再访问预测实验,实验结果表明,与基线方法对比我们提出的方法是更精确的。