基于过采样技术与机器学习的用户复购行为预测模型

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kangzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的发展与大数据时代的到来,传统的营销策略已经不能满足电商的快速发展,电商越来越倾向于从海量消费者数据中挖掘用户偏好、发掘潜在客户,并提出更为客观的数字营销战略。本文基于用户画像、行为和购买等信息构建相关的用户复购预测模型,通过实证分析与比较发现基于Borderline-SMOTE过采样技术的Voting与Stacking融合模型的预测效果与稳定性最优。为降低商家的库存与营销等成本,对用户进行精准营销,从而有效提高投资回报率(ROI)有一定的借鉴意义。本文的主要研究工作如下:(1)首先,本文根据天猫用户画像和消费数据进行可视化分析,大致了解了整体复购情况和用户性别与年龄对复购的影响情况。(2)根据原始变量主观构建了用户、商户和用户商户交互三个层面且与目标变量相关的新特征。并运用word2vec中的CBOW模型对商户ID进行编码。为了剔除冗余与无效特征,运用标准差筛选法和极端随机树筛选法对所有特征变量进行筛选,最终筛选出离散程度低,与用户复购行为密切相关且对模型预测贡献程度最高的36个特征。(3)由于在所有用户中复购者仅占6.12%,目标变量呈现不平衡分布。本文运用Borderline-SMOTE过采样方法对数据进行随机采样,很好地解决了目标变量不平衡分布对模型预测的影响。(4)根据过采样后的数据构建基于K近邻、随机森林与Cat Boost的单一模型,并运用交叉验证和随机与网格搜索方法不断迭代模型对参数进行优化,对比预测效果发现Cat Boost预测模型效果最好,在测试集上的预测准确度达到95.44%。以单一模型为基模型进一步构建Voting与Stacking融合模型,经过实证分析比较,加权投票与Stacking融合模型在训练集与测试集上的预测准确率和F1值均达到96%以上,相对单一模型具有更强的稳定性与泛化性能。通过预测效果对比分析,基于K近邻、随机森林与Cat Boost的Stacking融合模型对于用户复购行为预测效果最好,很好地提升了单一模型的泛化能力与稳定性。为电商识别忠诚客户进行有效推广有很好的模型借鉴意义。
其他文献
家庭既是社会组织的核心细胞,更是市场经济的重要主体。家庭的结构、收入、消费与投资变化及效果关系到经济社会可持续高质量发展,正确处理家庭的结构、收入、消费及投资的关系对于每个家庭和社会至关重要。改革开放四十多年以来,中国的经济社会持续发展,城镇化进程的加速割裂了原有收入共享、风险共担的大家庭,使家庭在社会和经济关系上朝着小型化转化。中国的家庭正面临老龄化加剧和生育率降低的复杂形势,势必对家庭结构产生
学位
党的十九大报告指出:“我国经济已由高速增长阶段转向高质量发展阶段”。经济转型是我国走出“中等收入陷阱”的必然要求,也是抢占世界核心产业战略高地的重要途径。经济由过去的粗犷式增长转变为高质量发展,企业创新能力是关键影响因素。创新研发活动具有高投入、高风险以及长周期等特点,企业在进行此类活动时会谨慎考虑资金保障问题,因此金融资本市场会对创新研发活动产生巨大影响。近年来,移动支付、大数据以及分布式计算等
学位
区域经济差异一直普遍存在,在我国,许多学者以东中西部地区、沿海与内陆、三大经济带等为研究对象,积极寻找造成区域经济增长差异的影响因素。然而,近年来,东西差距的“东快西慢”已经得到了缓和,而“南快北慢”成为一种新的经济现象,而当前对这一现象关注的学者较少。本文以2012年前后南北经济分化现象为背景,从产业结构的视角出发,分析产业结构对南北经济增速差距的贡献为目的,使用2005-2019年省级面板数据
学位
党的十九大报告指出,我国经济已经由高速增长阶段转向高质量发展阶段,我国正处于转变发展方式、优化经济结构、转换增长动力的关键时期。推动经济高质量发展对畅通国内大循环、保持我国经济健康运行具有重要意义。高质量发展需要以高效率高效益生产方式为全社会持续而公平地提供高质量产品和服务,从而更好地满足人民日益增长的美好生活的需要。高质量发展既体现在供给端提高供给质量与供给效率,又体现在消费端规模扩张、消费结构
学位
实地调研是获取公司信息的重要途径之一,受市场各方面的广泛关注。与其他信息渠道相比,通过实地调研获取的公司信息含量更大,能够为调研活动发起方提供第一手资料,帮助他们更加精确地把握公司基本面情况。为维护市场信息公平、满足广大投资者的信息需求,深交所于2009年开始要求上市公司调研活动后在年报中披露相关信息,才为学者研究实地调研活动的市场影响提供了数据支撑。在2012年7月,深交所进一步要求上市公司在调
学位
2013年,中国第一个自由贸易试验区——上海自贸区成立,以此为开端,中国深化改革开放的进程逐渐向纵深发展。到2020年9月,中国发布新增北京、湖南、安徽3个自由贸易试验区的建设方案,标志着中国目前的自贸区已扩容至21个,形成“1+3+7+1+6+3”的格局。随着中国自由贸易试验区的相继设立,自贸区的生态保护日益受到重视,其环境污染问题也显现出不同于非自贸区的差异化特征。为全面考察自贸区设立对于地区
学位
本文围绕医疗保险这一关乎人民生命健康的重大民生问题进行研究。医疗保险是一种社会保险制度,旨在补偿劳动者因疾病风险造成的经济损失,近年来,医疗参保的人数呈现出方兴未艾的趋势,但随之的医保欺诈行为也日益突出。欺诈者不断尝试新的规则和层出不穷的手段来实施非法行为,医保欺诈每年给医保基金和国家财政造成巨大损失,严重阻碍了我国医疗保险事业可持续发展。如何快速、高效、智能、准确地识别出医保欺诈行为已经成为保险
学位
近年来,家庭收入与资产规模的增长使得资产配置成为我国家庭一个日趋重要的问题,新冠疫情的发生使外生冲击对家庭资产配置的影响再次引起学界的关注。外生冲击能否影响家庭资产配置?外生冲击通过何种途径来施加影响,这种影响效应又将使家庭资产配置产生何种变化?对于此,已有的国内外研究相对有限,且现有文献在相关问题上存在争议,尚未形成一致的意见。为了研究外生冲击与家庭资产配置之间的关系,本文从时间偏好的心理学实质
学位
党的十九大报告和2017年12月举行的中央经济工作会议均明确了我国经济已由高速增长阶段转向高质量发展阶段。但高质量发展需要一套评价指标体系和度量方法以及推动高质量发展的具体措施。习近平总书记在2018年4月召开的“长江经济带发展座谈会”上要求:长江经济带应该成为促进我国高质量发展的中坚力量;在2020年举行的重庆两会上也确定高质量发展是当前和今后一段时期的战略目标。重庆是长江上游的经济中心,对引领
学位
我国在快速城市化过程中,环境污染因其扩散性和传播性导致污染治理问题跨行政区域影响明显,而我目前区域经济不平衡问题也加剧了环境污染的区域性特征,为了更好地推进区域经济协同发展,我国大力推进以城市群为基础的区域协调发展新机制,随着城市群成为中国新型城镇化的主要空间组织形态,以城市群为地理空间尺度进行环境合作治理,解决城市间共存的污染外部性问题变得愈发重要。但由于不同城市的经济和环境利益诉求不同,城市在
学位