论文部分内容阅读
随着互联网的快速发展与应用普及和网民规模的迅速扩大,电子商务越来越适应时代的需求,其发展速度得到了大幅度的提升,使得已有的电子商务网站面临巨大的挑战,各大电商平台竞争日趋激烈。为了抢占市场份额,各个电商平台的商户在特定日期进行大型促销活动以吸引新的买家。为了获得更高的投资回报率,这些促销活动有必要针对那些有望成为重复购买(潜在的忠实)的群体展开。因此,研究如何运用客户的行为日志数据预测出潜在的重复购买客户具有很重要的现实意义。本文基于Tmall“双11”活动日当天的一些商户的新客户在活动日及之前6个月内的行为日志数据进行“重复购买预测”的算法研究。首先本文通过分析影响重复购买的因素从而设计特征工程提取特征,并提出一种基于支持向量机(SVM)和随机森林模型的组合预测算法,该算法在实验中获得了很高的性能表现。其次,本文还提出了一种基于深度神经网络的预测算法,运用深度神经网络从大量训练样本的分布中自动学习出有效的特征。在该算法中,“词嵌入”首先被用于对原始特征数据进行编码,然后将编码后的词向量作为深度神经网络模型的输入,进而预测出重复购买的结果。本文的工作主要包含以下几个方面:(1)设计特征工程。通过分析影响重复购买行为的因素,提取出客户特征、商户特征、客户与特定商户的交互特征、年龄与性别等多个维度的特征;在深度神经网络模型中,利用词嵌入编码原始特征数据并设计特征子模块模型生成特征向量。(2)研究单一模型与融合模型在特征工程上的运用。分别使用支持向量机(SVM)和随机森林进行建模,最后将模型结果进行融合发现,组合模型能互补各个模型的优势获得更好的预测结果。(3)提出一种基于深度神经网络模型的重复购买预测算法。使用有效的方法构造多层神经网络;在底层先通过词嵌入模型对原始特征数据进行词向量编码,然后设计特征子模块生成特征向量,最后在模型的顶层进行预测。