基于数据挖掘的消费者购买预测的研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:tlkj168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的发展,网络购物已经成为一种主要的消费模式,相比于线下,线上消费具有价格低廉、品种繁多、比价方便、受营业时间、地域的影响更小等优点。但恰恰是海量的商品信息,更多元的购买选择,使得消费者要从中搜寻到合适的商品需要花费过多的时间和精力。与此同时,电子商务平台上的激烈竞争,使得商家们为了更好地贴近消费者的实际需要,细化了产品需求,这也使每种产品针对的用户范围更狭窄了。如何才能快速有效地从茫茫人海中定位出相应的消费者,并建立更有针对性的营销方案,是电商们在接下来的竞争和发展中,不得不考虑的重要环节。而消费者在电子商务平台上产生了大量的行为数据,使得分析消费者的购买意图和消费习惯成为可能,从而实现一对一的的精准推荐。本文采用天池大数据科研平台提供的真实数据,在用户交互过的商品中,预测哪些商品短期内将会被该用户购买。模型的建立分为四步:第一步是数据的预处理。先探索数据的基本分布情况,对数据进行初步处理。这一步为特征的提取方式以及算法的选取提供参考和依据。第二步是样本的选取。样本数据中,存在着正样本数量过少,且正负样本比例悬殊过大的问题。通过三次处理来解决:首先,通过滑窗构造取样增加正样本的数量。然后,通过对交互行为时效性的分析,压缩了预测期前选取交互样本的时间窗口,降低了正负样本比例。最后,对负样本进行不放回的随机采样,而正样本全部入样。第三步是特征工程。通过多种角度构造出用户(user)特征、商品(item)特征、商品类别(item_category)特征、用户-商品交互(user-item)特征四大特征群。然后采用不同手段加工、扩充已有的特征群:在简单特征的基础上,通过各种变换得到更适用于预测模型的二次特征;在单一特征的基础上,通过各种特征的组合方式得到更能体现数据特点和业务需求的衍生特征。特征是预测模型的自变量,决定了预测模型预测效果的上限,通过尝试不同的算法以及调试参数,可以逼近这个理论上限。第四步是模型训练和预测。本文采用逻辑回归和GBDT分别建立预测模型,通过测试集的验证比较,发现GBDT的预测效果更好。为了进一步提升预测模型的性能,将逻辑回归的结果作为新加入的特征,进入GBDT模型中重新预测,发现预测效果有所提高。分析原因后,发现和GBDT本身就是基于回归树的强分类器的性质有关。最后,本文阐述了该预测模型在电子商务推荐场景中的现实意义,并对该模型进一步提升的方向进行了较为详细的讨论。
其他文献
清朝是服饰发展最为繁荣鼎盛时期,服饰制度等级森严。其民间服饰习俗纷繁复杂,主要体现在清代男子头饰、男子的马褂、马袍、背心、腰带、鞋靴等;女子的头饰、裤、衫裙、鞋靴
<正>今年是我国改革开放40周年。40年来,我国的经济和社会发生了翻天覆地的变化,印刷业也取得了巨大的成就,告别"铅与火",走进"光与电",正迈进"互联网+"的数字化时代。其间,
期刊
计算资源的丰富和廉价、互联网的广泛使用为普适计算提供了有力保障。普适计算是继桌面计算、移动计算之后一种新兴的计算模式。笔者主要介绍了普适计算的概念、特征,以及普
英语电影赏析是大学英语后续课程的重要组成部分,是实现大学英语教学目的的重要手段之一。它无论从教学内容、理念、方式和技术手段上都有异于传统的英语教学。英语电影赏析
古代神话中的“一神多名”现象十分普遍 ,重、黎与耆童虽名为父子 ,其实是一神之分化。重为东方太阳神 ,析、折丹、羲和、太折以及东母、女童、东皇等都是异名同实的东方太阳
公司理财属于应用型的经济管理学科,与实践活动密不可分。而案例教学法是一种具有启发性、实践性的新型教学方法,在公司理财本科教学中加强案例教学,能够提高学生分析问题和
语用学是研究在语言运用过程中,交际的双方如何根据特定的语境来恰当地表达与准确地理解话语意义及其基本原则的科学。本文从语境与语义的模糊性、指示词与语义的模糊性、会
通过问卷调查方式,对网络服装定制的现状研究,重点分析公司职员、公务员、事业单位职业群体的网购习惯、需求动机和定制期望,并与学生群体进行对比分析.基于网络服装定制的消
目的:探讨分析山莨菪碱治疗妊娠期高血压的临床效果。方法:回顾性分析68例妊娠期高血压患者的临床资料,依据治疗方案的不同分为对照组和观察组,对照组采用硫酸镁进行治疗,观
通过对河北省空心村现象的初步分析和研究,拟定了有关空心村治理的四种模式,并简单对四种模式进行了对比分析,提出了空心村治理的几点措施以供探讨.