【摘 要】
:
近几年,随着我国网络技术的高速发展和智能设施的不断升级,数字经济呈现迅猛发展的趋势,电商行业迎来发展机遇的同时也面临新的挑战。要想获得更多消费者的关注,电商平台就需要不断地实现领域创新,精准地了解用户的购买偏好,提升用户购买体验,占据市场竞争的有利地位。在如今信息爆炸的网络时代下,从海量真实的用户行为数据中挖掘出有价值的信息是研究的重点。本文采用机器学习算法预测电商用户的购买行为,并通过大数据技术
论文部分内容阅读
近几年,随着我国网络技术的高速发展和智能设施的不断升级,数字经济呈现迅猛发展的趋势,电商行业迎来发展机遇的同时也面临新的挑战。要想获得更多消费者的关注,电商平台就需要不断地实现领域创新,精准地了解用户的购买偏好,提升用户购买体验,占据市场竞争的有利地位。在如今信息爆炸的网络时代下,从海量真实的用户行为数据中挖掘出有价值的信息是研究的重点。本文采用机器学习算法预测电商用户的购买行为,并通过大数据技术挖掘原始数据集中显著的用户行为信息,提取并构造用户行为特征,经模型训练后得到最终的预测分类结果以及影响用户产生购买行为的重要因素,为商家抓住用户需求、实现商品的精准推荐提供可行性建议,本研究工作主要分为以下几部分:1.在构建相关统计模型前对数据进行可视化描述和数据清洗,此环节通过对原始数据的描述统计来大概了解数据集的整体分布情况,然后进行一系列数据预处理工作以便于后期的特征工程,主要包括空缺值、异常值、噪声数据的处理和相关数据转换。2.本文在数据集原始特征的基础上,两两组合构造更多的衍生特征,但为了避免提取的特征过多而导致模型过拟合,利用SVM为基准模型来递归特征消除,提取重要性前11个行为特征用于后面模型的构建,特征选取不仅使得模型训练的速度加快,而且也有效地提升了模型性能。3.本研究在模型构建时,首先应用了2种传统单一的机器学习模型,预测准确性达到78%;然后又利用3种集成学习预测用户是否产生购买行为,包括2种同源集成和异源集成Stacking算法。模型训练后的实验结果表明:3种集成学习的预测精确度都达到82%以上,明显高于传统单一的机器学习模型,且Stacking算法的预测准确性优于同质集成,模型效果和性能都更好一些。最终得出:商品的价格、差评率和用户购物过程的其他行为次数等因素都对用户重复购买有一定的影响作用;用户购买行为的预测模型研究中,Stacking算法的模型预测效果更好一些,模型的评估指标和AUC值都优于单一和同质集成的机器学习算法。
其他文献
互联网平台中的经营者为了快速提升曝光度,通常会购买竞价排名服务,其中部分企业出于借助他人商标的影响力,为自己赢得用户关注的目的,会采取“搭便车”行为,即购买其他企业商标关键词的竞价排名服务。将他人商标关联到自家产品上,通常被“搭便车”的企业都是在特定行业具有一定影响的公司,竞价排名服务的购买者可以借此获得更多交易机会。既往判例中,在竞价排名中对他人商标进行显示性使用时,通常会被认定构成商标侵权。表
互联网金融的迅猛发展,使得惠普金融走进家家户户,给人们的生活带来便利,但与此同时,也带来一系列的金融风险,恶意骗贷、非法集资现象层出不穷。本篇论文旨在研究互联网金融背景下的信用评估模型,通过对现金贷客群的数据进行分析,使用多种算法进行模型训练,选出最佳的信用评估预测模型,为互联网金融公司开展借贷业务、发现优质客群、防范恶意借贷提供参考。本文主要从以下几部分展开研究:第一部分,通过了解互联网金融的现
在倡导全民阅读的新时代信息化背景下,本文从图书个性化推荐的角度出发,通过运用比传统推荐算法更加与人的阅读习惯相匹配的序列推荐算法,帮助大众在海量的信息中迅速找到令其感兴趣、容易阅读并且有价值的内容,旨在助力全民阅读事业的推进。本文对序列推荐现有的多种领先算法进行了在图书推荐场景下的适用性探索,并充分考虑不同人群购书场景下的间隔时间差异性特征、多主题并行特征来设计模型结构。利用亚马逊网站公开发布的书
研究长三角产业协同集聚和区域创新的交互影响,不仅对其实现产业与创新的融合高质量发展有现实意义,对于我国其他地区也有借鉴意义。本文以长三角为研究对象,基于产业协同集聚和区域创新关系的视角,对2003~2018年长三角城市群27个地级及以上城市,产业协同集聚和区域创新的时空格局和演变过程进行了分析,进一步探讨了制造业与生产性服务业协同集聚和区域创新的交互影响机理,以及制造业与生产性服务业六大细分行业协
随着共享经济时代的到来,在线短租行业近年来发展迅猛。本文基于美团民宿网站11个城市的房源基本信息和评论信息展开实证研究,旨在探索影响在线短租租户订购意愿的主要因素,以期为在线短租行业的发展提供建议和建设策略。研究中,基于房源基本信息数据构建多元线性回归模型和随机森林特征选择模型,并结合房源的评论数据进行LDA主题分析,得出如下结论:通过多元线性回归模型,发现影响租户订购意愿的因素主要包括房源的地理
随着自媒体时代的兴起,弹幕语言在哔哩哔哩弹幕视频网站(简称B站)中的作用不容小觑。弹幕作为一种实时评论,表达出了用户观看视频当下的情感与看法。本文首先自行爬取B站的部分视频,将弹幕标注为正向、负向和中性的情感倾向,然后采取了3种方法来对弹幕文本进行情感分类,最后利用有序多分类logistic回归探究了影响弹幕情感的因素。研究发现,B站弹幕的3种情感倾向所占比例相差悬殊,负向情感的弹幕只占10%。对
总结刘佃温教授治疗儿童溃疡性结肠炎的经验。刘佃温教授认为其主要病机特点为本虚标实,指出脾肾亏虚为致病之本,血瘀、湿热等病理因素滞阻肠间为发病之标,在治疗时以补脾益肾为主,辅以清肠化湿、行血化滞之法,坚持全肠、全程、分期序贯治疗,取得了较好的临床疗效。
在暴发重大突发公共卫生事件时,为有效应对危机,尽快恢复正常社会生活秩序,政府行政权往往会高度集中,这就很容易导致权力的扩张及滥用,进而打破社会公共利益与公民个人权利之间的平衡,造成对公民基本权利的侵犯。比例原则对于维持此平衡具有非常重要的意义。加强比例原则在我国疫情防控工作的适用,改善应急防控传统理念,在应对和处理危机的过程中融入比例原则思维,强化具体规定,加强司法监督和公民权利救济,从而为实现防
量化投资是金融市场上一种新的投资方式,它通过数学模型和统计方法进行决策,从而得到一个能够获得超额收益的投资组合。其中,多因子量化选股模型因其效率高、客观性强而受到业界和学术界的青睐。本文主要研究了如何将随机森林算法模型与支持向量机算法模型应用于多因子量化选股中,从而在不断变换风格的市场中取得高收益。本文首先选择了分布在估值类、盈利能力类、偿债能力类、经营能力类、成长类、行情类、技术类这7个大类共2