基于电商评论的网购商品特征提取及价格预测

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:lizhigang3637
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着电子商务的不断革新,网购消费者在众多同类型商品中挑选一件物美价廉的商品需要耗费大量时间和精力。本文以京东商城羽毛球商品为例,通过LDA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量,建立对商品价格的回归预测模型。得出结论,基于电商评论提取商品特征建立价格预测模型的方法可以较准确地预测商品平均价格,优化消费者购买决策过程,提升电商平台运营服务能力。
  关键词:电商评论  LDA主题分析  特征提取  價格预测  随机森林
  中图分类号:F713.36                           文献标识码:A                    文章编号:1674-098X(2021)02(a)-0124-06
  Feature Extraction and Price Forecasting of Online Commodities Based on E-commerce Comments
  PU Chengyu
  (School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)
  Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-commerce platform.
  Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest
  随着电子商务技术的不断革新,网络购物现如今已经成为百姓购物的主要方式之一。截至2020年6月,我国网络购物用户规模达7.49亿,较2018年底增长1.39亿[1]。电子商务的开放性和便利性让消费者用户足不出户就能“货比三家”,买到物美价廉的商品,商家也能获取到传统线下运营模式不能比拟的市场规模,越来越多的商家进驻电商平台使得商品数量和类型呈现井喷式增长。研究发现,用户是否购买商品,主要取决于在线商品性价比与消费者需求诉求[2]。从消费者的角度来看,繁多的同类型商品给消费者的选择带来困难,挑选一件性价比高的商品需要耗费用户大量的时间与精力。从电商平台的角度看,改善用户选择流程,提升用户购物体验能够显著提升平台用户忠诚度和推广购买转化率。
  数据挖掘在电子商务领域的应用越来越广泛,在电子商务智能推荐服务中的关联规则算法[3],基于电商产品评论数据的文本挖掘方法[4],针对不同消费群体网购决策影响因素研究的聚类分析算法[5]等在电商大数据发展中起到重要作用。目前学者在针对电子商务领域的用户评论研究大多集中于评论本身所包含的信息,鲜有学者将电商评论挖掘出的信息更进一步运用到回归预测模型中。如严建援等针对在线评论内容对评论有用性的影响的研究[6],李涵昱等针对商品评论进行的情感倾向性分析研究[7],国显达等提出Gaussian LDA主题模型挖掘京东商城等在线评论中用户所表达可能的主题的研究[8]。
  本文以京东商城的羽毛球商品为例,基于畅销商品评论挖掘用户需求,提取商品特征作为模型解释变量,建立商品价格的回归预测模型。为用户购买高性价比羽毛球商品提供参考,也为电商平台改善用户体验提供思路。   1  研究方法介绍
  1.1 基于电商评论的商品特征提取及价格预测模型
  本文提出了基于电商评论的网购商品价格预测模型,主要包括六个步骤,如图1所示。
  (1)畅销商品评论抓取:抓取评论过万的畅销商品的最近评论,包含评论的内容、评论所属商品等信息。
  (2)评论文本处理:包括文本去重、机械压缩去词、短句删除和文本分词等步骤。
  (3)LDA主题分析获取用户需求:运用基于Gibbs抽样的LDA主题模型分析店商評论中用户可能的多个主题倾向,即用户需求。
  (4)商品特征抓取:根据得到的用户需求在电商平台中抓取所有与之相关的商品特征数据,作为预测模型的解释变量,包括商品价格、店铺类型、评论数量等信息。
  (5)变量预处理:对响应变量和解释变量进行预处理,包括正则表达式处理、缺失值处理和异常值处理等。
  (6)建立商品价格预测模型:建立预测模型、评价模型。
  1.2 LDA主题模型
  LDA主题模型是Blei等于2003年提出的无监督生成式主题模型[9],假设待分析文档集D由M个文档组成,即;其中每个文档由个词组成,即;M个文档共分布了K个主题。
  对于分布方面LDA模型假设主题在文档中的分布服从一个参数为的多项分布,词在主题中的分布服从一个参数为的多项分布,参数和分别来自服从超参数和的狄利克雷先验分布。则可定义一篇文档的生成过程如下:对于某个文档,首先从主题分布中抽取一个主题,再从主题z对应的词分布中抽取一个单词,如此重复次即得到文档。该生成过程可由图2中的模型结构示意图表示。在文档 条件下生成词W1的概率可以表示为:
  (1)
  其中表示词w1属于第s个主题的概率,表示第S个主题在文档dj中的概率。
  基于该原理,利用Gibbs采样算法对参数和进行估计即可得到主题在文档中的多项分布和词在主题中的多项分布[10]:
  (2)
  其中,表示文档中包含的主题的个数;表示词在主题中出现的次数。
  2  实例分析
  2.1 畅销商品的评论获取
  本文数据来源于京东商城体育用品分类下的羽毛球商品,利用八爪鱼网络爬虫工具爬取用户评论数据。考虑到评论过万的畅销商品包含优质评论的数量更多,更有利于从中提取用户需求信息,因此分别抓取这些畅销商品的最近评论,共收集到13419条评论数据,包含评论的内容、评论所属商品、评论时间等信息。
  2.2 商品评论文本处理
  文本预处理方法中的文本去重、机械压缩去词和短句删除被广泛运用于电商评论分析中,图3所示为上述预处理方法的步骤和示例。预处理后的评论语料用Jieba分词中的混合模型进行分词,它结合使用最大概率法和隐式马尔科夫模型,对中文文本的分词效果好。分词后的文本还需删除停用词,即删除“我”、“的”、“说”等不包含实际意义的词,以提升分析效率,减少噪声。经过上述评论文本的处理后,根据每个词在所有评论中出现的频率做出如图4所示的词云图,图中词的字体越大表示该词在所有文本中出现的频次越高。
  2.3 LDA主题分析获取用户需求
  由图4的用户评论词云图可以看出,经过分词后的评论确实能够反映出用户对于产品的需求,例如商品的包装、外观,球的飞行、速度、羽毛,物流情况等,因此进一步采用LDA主题分析模型将用户需求信息提取出来。本文用R软件topicmodels包中基于Gibbs抽样的LDA模型实现用户评论的主题分析。LDA主题模型建立的关键是确定主题数量,运用十折交叉验证方法计算平均困惑度和平均对数似然值,结果见图5。根据极小化困惑度和极大化对数似然值下减少主题数的原则确定提取主题数为15。
  经LDA主题分析后输出每个主题对应的前十个高频特征词,限于篇幅,仅于表1中列出7个主题(每个主题5个词)的结果。结合实际意义,将每个主题对应的高频特征词分别总结凝练为一个主题词来概括表示该主题,如表1主题1中所示的高频特征词“配送、慢、收到”等词表达了用户对快递配送的需求,因此将该主题归为“快递”需求。依此类推本文分别得到的15个主题词(即用户需求)为快递、材质、耐打、服务、评价、做工、羽毛、球头、手感、包装、球速、飞行、品牌、店铺和售后。
  2.4 商品特征抓取和变量预处理
  在LDA主题模型确定的15个用户需求指导下,可以有目的性地从消费者的角度提取商品特征作为预测模型的解释变量,优化模型的变量选择过程。综合考虑专业运动员对羽毛球性能的解释和商品特征数据的易获取性,诸如表1中用户需求“售后”可由“售后服务分数”来反映;用户需求“耐打”主要取决于羽毛球的羽毛材质和库存存放时间长短即上市时间;用户需求“飞行”主要由羽毛球的羽毛材质、毛片形状、球头材质和商品毛重等多重因素决定等等。本文利用八爪鱼爬虫工具从电商平台商品详情网页中共提取到14个反映用户需求的商品特征作为模型解释变量,商品特征与用户需求的对应关系如图6所示。
  由于商品名称的特殊性,所爬取到的商品详情信息中存在“羽毛球拍”、“羽毛球服”等无关商品信息,本文利用自然语言处理的正则表达式将这些信息剔除。另外为了分析的量纲一致性,商品售卖单位统一为市面常售的12只一桶装的鹅毛或鸭毛材质羽毛球。经初步筛选后,共保留1620条羽毛球商品详情数据。对于数值型变量缺失情况采用均值填充;分类型变量缺失情况将其他变量作为解释变量,缺失变量作为响应变量建立随机森林模型,用预测值填充缺失值。对于数据偏斜很大的评论数变量进行离散化,将评论数0~50记为销量较差、50~200为销量一般、200~1000为销量较好、1000~10000为销量很好、大于10000为畅销商品。预处理后的变量类型和取值见表2。   2.5 商品价格预测模型
  根据LDA主题分析提取的解释变量对羽毛球商品价格建立回归预测模型。考虑商品特征中同时包含数值型变量和分类型变量,为确定合适的预测回归模型,本文分别选用统计上常用的集成学习、核方法和线性方法中最具代表性的随机森林模型、支持向量回归模型和多元线性回归模型对变量进行拟合,评估各模型在实际应用中的表现,选择最优模型。本文基于十折交叉验证方法,计算统计回归中常用的均方根误差(RMSE)和平均绝对百分比误差(MAPE)评估模型的泛化能力于表3列出。结果证明基于集成学习的随机森林模型在表现上优于支持向量回归和多元线性回归模型,因此最终建立基于随机森林的羽毛球商品价格模型,模型拟合优度为0.85,拟合效果较好。
  图7显示了各解释变量在模型中的重要性条形图,可见前五个影响羽毛球商品价格的因素分别是商品品牌、评价数量、毛片分类、售后服务和物流履约。其中羽毛球商品的品牌在模型中重要度最高,其次是商品评价数量。是否京东自营和店铺类型在模型中重要度较低,说明羽毛球商品的价格与线上经营渠道的相关性不大。结合表2中各变量所描述类别来看,羽毛球商品价格主要由商品自身属性和售后服务决定,店铺的销售渠道和方式对其影响微乎其微。
  3  结论
  本文通过LDA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量。运用十折交叉验证方法计算对比随机森林模型、支持向量回归模型和多元线性回归模型的泛化能力,最终建立了基于电商评论的商品特征提取及价格预测模型。模型显示影响羽毛球商品价格的因素可以分为商品自身属性和售后服务两方面。对于商品自身属性而言,羽毛球品牌对价格影响最大,消费者在网购羽毛球商品时若选购不同品牌的羽毛球其价格差异会比较大,可根据自身水平决定购买何种档次,如大众品牌红双喜的羽毛球商品主要定位低端市场,价格总体较低,适合业余健身爱好者购买;而如日本品牌尤尼克斯的羽毛球商品主打中高端市场,价格总体偏高。针对水平较高的业余爱好者或者专业羽毛球运动员,可以进一步根据自身对羽毛球如飞行稳定性、耐打程度等性能要求,运用该模型计算出符合相应需求的羽毛球大致价位,对自己的购买提供参考,以达成更优质的运动体验。对于售后服务而言,商品包装、商家默认快递公司的服务、是否包邮等都对商品价格有一定影响,如京东自营的商品物流履约度极高,但价格相对同样产品的其他商家更高,且需要額外支付邮费。
  综上所述,本文基于电商评论提取商品特征建立价格预测模型的方法可以较准确地给出商品平均价格,消费者在购买羽毛球商品时可以根据自身对售后服务和商品属性的要求结合预测价格选择适合自己的羽毛球商品,优化消费者购买决策过程。对电商平台而言,建立上述预测模型有利于提升用户购物体验,增强用户粘度,有助于提升平台对商品价格的管控,保质保价的同时提升平台运营服务能力,也能够帮助厂家认识消费者需求与价格之间的相关关系,为厂家生产运营升级提供有效支撑。
  参考文献
  [1] 中国互联网络信息中心(CNNIC). 第46次中国互联网络发展现状统计报告[R]. 2020-09.
  [2] 韦建国,王玉琼.基于网购平台大数据的电子商务用户行为分析与研究[J].湖北理工学院学报, 2019, 35(3):34-38,57.
  [3] Marcin Szymkowiak, Tomasz Klimanek, Tomasz Józefowski. Applying Market Basket Analysis to Official Statistical Data[J]. Econometrics, 2018, 22(1):39-57.
  [4] 陈义.文本挖掘在网购用户评论中的应用研究[D]. 杭州:浙江工商大学, 2018.
  [5] 陈梅梅,薛阳阳.基于消费群体聚类的网络购买决策关键影响因素分析[J].统计与决策,2015(3):49-51.
  [6] 严建援,张丽,张蕾.电子商务中在线评论内容对评论有用性影响的实证研究[J].情报科学,2012,30(5): 713-716.
  [7] 李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
  [8] 国显达,那日萨,高欢,等.基于Gaussian LDA的在线评论主题挖掘研究[J].情报学报,2020,39(6):630-639.
  [9] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research (JMLR), 2003(3): 993–1022.
  [10] 张良均,云伟标,王路,等.R语言数据分析与挖掘实战[M].北京:机械工业出版社,2015.
  [11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
  [12] 刘敏,郎荣玲,曹永斌.随机森林中树的数量[J]. 计算机工程与应用,2015(5):126-131.
其他文献
摘 要:随着时代的发展,各项科学技术都在新的时代背景下获得了更加显著地突破,尤其是关于新的通信系统的研制。如今的通信系统已发展到5G网络,5G网络相比于4G网络有着速度快、低时延、低功耗等优点。5G不仅可以应对快速增长的数据量,同时在人工智能技术、物联网、云计算等行业方面也有着很好的应用,5G网络的出现让很多行业焕发了崭新的生机。同时,伴随着许多技术的创新或者出现,5G网络建设难题也随之有了很多重
摘 要:进入21世纪以来,无论是信息技术的发展,还是环保意识的加强,都使得人们提高了对办公环境及办公设备的要求。未来办公空间室内设计的主流是智能化设计,智能化办公空间有利于提高工作人员的工作状态与身心健康。本文基于人文关怀及智能化的理论基础上,从办公空间设计的角度入手,具体研究了办公空间智能化设计的运用问题,对如何科学运用智能化设计提出自己的看法与建议。  关键词:办公空间 室内 智能化设计 运用
摘 要:现代的图书馆工程建设中往往包含了大量的信息化建设工作,因此在建设方案中往往将图书馆建设与数字图书馆建设并提,数字图书馆绝不仅仅是传统图书馆的数字化,而是在新的时代、新的背景下,全新的、信息化、数字化、网络化的知识管理和服务体。数字图书馆的概念不仅仅是一个有着信息管理工具的数据收藏的等价词,数字图书馆更是一个环境,它将收藏、服务和人带到一起以支持数据、信息,乃至知识的全部流程,包括从创造、传
摘 要:随着我国大量高铁的建设和运营,以及已经投入运营的原有铁路,有必要开发和维护越来越多的轨道。当使用配备有专业且高精度测量设备的大型道路养护机械来保持线路状态时,有必要使用轨道控制网络(CPⅢ)作为定位参考。本文系统地研究了一种建立单面CPⅢ控制网络的新方法,并对单面CPⅢ控制网络测量数据的精度进行了统计分析和计算实验。可以认为,CPⅢ平面网和CPⅢ三角高程网的精度可以满足高铁的相关精度要求。
摘 要:邮轮建造难度较高,我国部分船厂刚进入邮轮建造行业,但缺乏对供应链质量管理经验。为此从船厂角度对邮轮建造中供应链质量管理难点进行分析,提出了船厂的总体供应链质量管理应从产品质量、物流服务质量以及装配质量三个维度对上下游各个节点进行管理,并从收益影响、产品数量、供应风险等角度对属于不同预算类别的供应产品制定了质量管理策略。  关键词:邮轮建造 供应链质量管理 供应商分类 预算分类 产品质量  
摘 要:信号维护支持系统属于推动与提升城市轨道交通信号部门工作效率、维护效率以及维护水平的重要支撑,按照信号维护支持系统的配置现状来看,需要基于市场发展现状量身定做维护支持系统,基于信号维护支持系统的结构、功能实现以及设备配置等方面探讨信号维护支持系统,并借助通信专业提供传输通道并构建独立的信号维护支持网络。对此,为了进一步提升城市轨道交通的发展效益,本文简要分析信号维护支持系统,希望可以为相关工
摘 要:伴随信息化技术进一步发展,4G技术更加成熟,为我们带来更优质的服务。以4G技术为支持的5G技术,使得信息传输质量空前提高,为广播电视发展提供更加有利的背景。传统广播电视应紧跟时代发展潮流,延伸思路,以5G技术为支持,发展“智慧”型的广播电视,激发行业潜在动力,促进广播电视可持续发展,为大众创造更好的生活服务,满足新時期受众需求。  关键词:5G 技术 广播电视 智慧  中图分类号:TN91
摘 要:针对嵌入式控制系统信号采样精度问题进行分析,提出了通过软件进行数字滤波,从而解决大范围电流传感器在小电流采样工况下精度不足的问题。并根据算法原理和内存结构做了算法优化,一共提出了三种滤波算法。通过引入新静态变量的方式,极大地提升了算法的运算速度,进而减小了滤波算法在采样和运算周期中占用的时间,为提高控制器的控制频率提供了可能。本文从问题分析入手,分析算法原理和优化方向,同时对三个算法进行了
摘 要:本文基于对科技管理创新的重要性进行分析,提出了作为科技管理创新的管理者和决策者应具有较高的管理能力和创新意识外,还应有对科技的前瞻性和市场竞争力的综合分析与预判能力。重视科技管理创新人才队伍的培养,立足企业根本,并与时俱进响应市场需求,这样才能更好地输出管理效益,增加产品技术附加值,提高科技服务质量,增强企业市场核心竞争力。通过科技管理创新驱动企业科技实力的整体提升,并促进企业向更高科研技
DOI:10.16660/j.cnki.1674-098X.2011-5640-9632  摘 要:校本课程开发与评价是学校教育培养的重要组成部分。目前不少学校存在偏离对学生需求与发展的关注的现象,但校本课程的价值追求要求学校和教育者重視“以人为本”。学校应该回归教育的根本目标,切实了解学生发展需求与情感取向,在立足学情和教育规律的基础上加强学生参与、融会情感与价值认同,以科学理性的开发和评价方式