基于机器学习的用户购买行为预测研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:liongliong514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的不断发展,网上购物变得越来越方便。琳琅满目的商品不断地推向用户,从众多商品中挑选出符合自己心意的商品变得越来越繁琐。同时,各电商平台之间竞争日益激烈,如何挖掘用户潜在购买意向,准确地为用户推送符合自身喜好的商品,最大程度提升用户的购买转化率,这对于平台运营者而言,变得越来越具有现实的指导意义。本文采用京东大数据平台提供的来自京东平台下已脱敏的真实数据,对用户的购买行为进行挖掘,预测用户在未来5日内会购买何种商品。对用户购买行为进行预测主要分为以下四个步骤:第一步是对异常数据进行处理。对原始数据进行缺失值填充、去除噪声数据和爬虫干扰数据,并对用户购买行为进行初步统计得出基本的用户购买行为分布情况。第二步是特征选取。通过对业务进行分析,对重要特征进行提取,构造合理的用户购买行为预测数据集。第三步是模型训练与评估。选取Light GBM、Cat Boost和XGBoost模型,结合训练数据集,对用户购买行为进行建模与分析,通过参数调优与模型评估,确定出XGBoost模型为预测效果最好的单预测模型。第四步是模型融合策略下预测模型的建模与评估。通过加权投票法和Stacking融合策略构造出四种组合预测模型,并同单一预测模型进行对比。通过模型评估与分析,发现组合模型的预测效果要优于单预测模型,同时,也确定了应用加权投票策略的组合模型为最终用户购买行为预测模型。
其他文献
花生(Arachis hypogaea L.),是一种非常重要的油料作物,在中国乃至世界的油料市场上都占据着重要地位,其丰富的油脂以及蛋白质含量赋予其极高的营养和经济价值。然而全球日益
肝癌特别是肝细胞癌(Hepatocellular carcinoma,HCC)是在世界范围发病率和致死率都相当高的恶性肿瘤,严重危害人类的生命健康,目前缺少有效的治疗方法。我国一直是肝癌的高发
林果的种植面积以及产量的逐年增加给林果的采收工作迎来了新的挑战。不可否认,机械化林果采收正在逐渐替代传统意义上的人工采收。近年来,随着研究的不断推进,核桃、大枣、
“假-名”构式属于“形-名”构式的一个特殊分支,一直被语言学家们谈及。基于Kamp对“fake gun”研究,概念整合理论和认知参照点曾多次被使用来分析其背后的认知机制,但很少
語錄體作為一種古老的文體形式,在宋代得到了巨大的發展,理學家語錄體著作更是廣為流行,卷帙繁多,《龜山先生語錄》便是其中一部。《龜山先生語錄》一書所記,乃宋儒楊時講學
聚合育种是开展高产优质育种最重要的策略之一。SS1、SS2、Ghd7和Ghd8是位于不同染色体上的控制水稻源库性状的多效性主基因,其对水稻产量和源库的影响相对独立且各有特点。
智能材料是指一类具有一种或多种独特性能的合成材料,这种材料的某些性能会在不同的外部刺激下发生显著改变,从而实现对一种或多种环境变化的响应。利用这些不同的触发机制,研究人员设计出了各种可控的、个性化的智能材料以应对不同的使用环境。其中,智能运动机器人是智能材料领域的一项研究热点。聚合物基柔性材料的运动连续性和变化性可以使该种机器人能够很好地适应无法预知的障碍,而各种聚合物基智能响应材料可以用来制备传
直播稻在实际生产中以机械直播和人工撒播为主,而氮肥运筹方式以及播量的选择尚未存在完善的理论支撑。因此在本研究从播种方式、播量和施肥方式入手研究直播稻的分蘖特性和
随着,我国电力牵引领域的长速发展,牵引系统的可靠性与安全性越来越受到人们的重视。能否及时准确获取速度信息是保证系统稳定运行的关键。目前电力牵引系统大多安装速度传感
在数字图像的获取过程中,由于很多方面的不确定因素,使得获取到的图像存在一定程度上的模糊,对多媒体信息的实际应用造成了极大的不便。因此,如何进行图像修复成为了图像领域中一个重要的研究课题。根据是否已知图像的模糊核,可以将图像复原问题分为盲解卷积问题和非盲解卷积问题两类。本文针对图像的盲解卷积问题——即在仅已知模糊图像的情况下对模糊核和清晰图像进行估计,围绕着基于组的稀疏特性和结构自相似性,展开针对单