论文部分内容阅读
随着电子商务的发展,网络购物已经成为一种主要的消费模式,相比于线下,线上消费具有价格低廉、品种繁多、比价方便、受营业时间、地域的影响更小等优点。但恰恰是海量的商品信息,更多元的购买选择,使得消费者要从中搜寻到合适的商品需要花费过多的时间和精力。与此同时,电子商务平台上的激烈竞争,使得商家们为了更好地贴近消费者的实际需要,细化了产品需求,这也使每种产品针对的用户范围更狭窄了。如何才能快速有效地从茫茫人海中定位出相应的消费者,并建立更有针对性的营销方案,是电商们在接下来的竞争和发展中,不得不考虑的重要环节。而消费者在电子商务平台上产生了大量的行为数据,使得分析消费者的购买意图和消费习惯成为可能,从而实现一对一的的精准推荐。本文采用天池大数据科研平台提供的真实数据,在用户交互过的商品中,预测哪些商品短期内将会被该用户购买。模型的建立分为四步:第一步是数据的预处理。先探索数据的基本分布情况,对数据进行初步处理。这一步为特征的提取方式以及算法的选取提供参考和依据。第二步是样本的选取。样本数据中,存在着正样本数量过少,且正负样本比例悬殊过大的问题。通过三次处理来解决:首先,通过滑窗构造取样增加正样本的数量。然后,通过对交互行为时效性的分析,压缩了预测期前选取交互样本的时间窗口,降低了正负样本比例。最后,对负样本进行不放回的随机采样,而正样本全部入样。第三步是特征工程。通过多种角度构造出用户(user)特征、商品(item)特征、商品类别(item_category)特征、用户-商品交互(user-item)特征四大特征群。然后采用不同手段加工、扩充已有的特征群:在简单特征的基础上,通过各种变换得到更适用于预测模型的二次特征;在单一特征的基础上,通过各种特征的组合方式得到更能体现数据特点和业务需求的衍生特征。特征是预测模型的自变量,决定了预测模型预测效果的上限,通过尝试不同的算法以及调试参数,可以逼近这个理论上限。第四步是模型训练和预测。本文采用逻辑回归和GBDT分别建立预测模型,通过测试集的验证比较,发现GBDT的预测效果更好。为了进一步提升预测模型的性能,将逻辑回归的结果作为新加入的特征,进入GBDT模型中重新预测,发现预测效果有所提高。分析原因后,发现和GBDT本身就是基于回归树的强分类器的性质有关。最后,本文阐述了该预测模型在电子商务推荐场景中的现实意义,并对该模型进一步提升的方向进行了较为详细的讨论。