数据平衡与模型融合的用户购买行为预测研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:okanyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务的迅速发展给人们的生活带来了很大的便利,但其商品种类繁多也使得用户需要花费更多的时间和精力搜寻到合适的商品,因此了解用户的购买意图是电子商务平台提高用户购物体验的关键。本文的研究重点是构建二分类预测模型预测用户的购买情况。论文的主要工作如下:(1)构建用户购买行为的预测特征。构建预测特征是构建预测模型的重要部分,好的特征应用常见的算法就能得到出色的预测效果。首先从原始数据中提取基本特征,然后运用统计学知识构建一些复杂的衍生特征,最后对特征的相关性进行分析去除无关的预测特征。(2)改进随机欠采样数据平衡方法。在用户的购买行为数据中用户的浏览和加购物车等行为数据要远远多于购买行为数据,本文提出了基于K-means算法的改进随机欠采样处理样本数据的不平衡问题。改进随机欠采样利用K-means对多数类样本聚类然后从各个类簇中删除样本,有效的解决了随机欠采样方法的信息丢失问题。(3)多异质算法融合预测模型。融合模型集合多种预测算法优势能够获得更好的预测效果,本文结合长短期记忆网络(LSTM)算法的时序性、极限梯度提升(XGBoost)算法对于稀疏数据泛化性强和逻辑回归算法对数据中小噪声的鲁棒性,使用Stacking集成方法将这三种算法融合得到预测模型对用户购买行为进行预测。论文采用京东大数据比赛提供的实验数据对模型的预测效果进行验证。实验结果表明改进随机欠采样数据平衡方法能够有效的防止数据集信息的丢失的同时达到数据平衡的效果,融合预测模型的预测效果和泛化能力要比单一预测模型更好。
其他文献
近年来,以石墨烯及其衍生物为代表的二维材料,因具有良好的机械、光学和电学等性能,在集成化、微型化和柔性化平面器件的制作和应用中具有重要的发展前景。在保留材料原有性
井上靖的《本觉僧遗文》,主要以千利休的弟子本觉僧的口吻,讲述千利休被赐死的几个原因。文中因是回首千利休的过往,大部分都与日本的茶道文化相关,这对了解日本茶道文化大有
随着英语的全球化,口译在社会经济发展中的地位越来越重要。丹尼尔·吉尔根据口译的特点,建立了交替传译的精力分配模式,为了推进对精力分配模式的进一步研究,吉尔又提出了精
头颈部肿瘤中最具侵袭和转移能力的癌症是鼻咽癌,其在中国华南地区具有很高的发病率。鼻咽癌临床主要的治疗方法是放疗结合化疗,癌症的远处转移和复发是其治疗失败的主要原因
在民族音乐学看来,音乐是一种普遍的人类现象。将音乐作为人类行为研究,近些年来备受专家、学者和演奏者的关注。艾伦.帕.梅里亚姆的行为研究范式为研究音乐表演提供了独特视
在20世纪西方文论迅速发展变化的时代背景下,戴维·洛奇身兼文学批评家和小说家双重身份,广泛吸取了各种流派的观点,根据自己的小说创作实践和文学理论观点形成了一套自己独
大中型沼气项目是我国农村沼气转型升级的主攻方向,对推进农村清洁可再生能源利用、改善农村生态环境和助推乡村生态振兴等具有重要的现实意义。但长期以来大中型沼气项目普
众所周知,词汇是语言学习中的重要因素。因此,词汇学习一直是二语习得领域热议的话题和研究的对象。许多研究者表明外语学习者可以在阅读中附带习得词汇。相较于传统的词汇教
一个国家的经济增长总是在一定的结构中成长和壮大的,这一结果可以简约地二分为实体经济结构和金融结构,按照新结构经济学的观点,不同发展阶段国家的实体经济结构并不相同,不
本实践报告以作者在兰卡斯特中国企业催化项目中担任联络口译员为例,借助图式及其功能,对口译实践活动进行分析,旨在具体探究图式对口译活动产生的影响。通过回顾发现图式在