时间序列聚类算法及其在线上商品分析中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,我国B2C电子商务行业发展迅速,越来越多的电商平台诞生,虽然活跃买家数也在逐年递增,但是对于商家来说压力亦是只增不减的。而在这个商家和消费者交易的过程中,产生的商品销售数据也是可以缓解商家压力的。通过对数据进行挖掘和分析,研究基于网络消费的各商品之间的内部结构既能反映消费者的消费倾向及其原因,也能指导商家做出对商品价格或品牌等的改进去迎合消费者需求。据此,本文以2019年10月24日-2020年12月31日的食品、衣着和大型家用电器三大类的京东商城线上商品时间序列数据为研究对象,以单价和消除基期的累计评价数为研究变量做时间序列聚类研究。其中采集商品共计207种,数据采集周期为三天,每个商品每次采集约1050条数据,每条数据的特征包括标题链接、店铺名称、商品标题、购买价格和累计评论数。首先从这207种商品中选择出具有代表性的八种商品,对这八种商品从时间维度和商品维度进行描述性统计分析,从时间维度发现各商品的单价和评价数既变化各异也有一定相似性,从商品维度发现了单价贵和受欢迎的商品的集中特性。然后,对这八种商品分别运用k-means聚类、基于特征的SOM神经网络聚类和基于AR模型的SOM神经网络聚类,由聚类结果的可解释性选择出相对最优算法k-means聚类算法。最后将k-means聚类算法运用于基于各商品聚类后的特征时间序列中。结果表明,所选择的k-means聚类算法不但能反映各簇中商品数据的变化,而且能通过各簇的单价和评价数的均值来进行进一步描述。通过对各簇的详细研究,得到优质簇反映的商品特性,不但能反映出京东用户的消费倾向,而且可以为商家在商品选择上提供有效指导和数据支撑,具有极其有利的参考意义。
其他文献
随着中国经济不断发展,民生水平不断提高,进入二十一世纪以来,汽车市场日益繁荣,新车保有量不断提高,国民从消费观念上也渐渐接受二手车,二手车市场稳中有进。截止2019年底,我国二手车交易量高达1492.28万辆,二手车价值评估和预测业务不断发展,对推动二手车市场价格合理化、交易公平化起着重要作用。然而,二手车价值评估和预测业务仍处于初步阶段,无法满足现有庞大的交易市场,缺乏推动市场良性发展的科学性力
学位
多因子量化选股一直以来是个研究热点,机器学习和大数据的兴起为多因子量化选股带来了更多研究方向。股市是在不断地变化发展的,尽管众多机器学习算法都能够在股市上表现不错,甚至获得超额收益,但具体来说,哪种指标在量化选股中会更具有代表性,众多因子在机器学习模型中是否能够真实有效地捕捉股市信息,以及过多的因子特征在模型中是否会彼此干扰降低机器学习模型的性能,对这类问题的探讨仍然是具有现实意义的。这也是本文研
学位
随着社会发展科技进步,人类日益增长的物质需求与稀有自然资源之间的矛盾变得更加强烈。农业发展也不再以解决温饱问题为目标,改革开放以后农业飞速发展带来的弊端日益凸显,农业环境污染问题越来越严重。农业生态系统的失衡必然会制约农业的发展。安徽省农业快速发展的过程中,由于农药、化肥等的过度使用,造成了土壤污染,引发了一系列粮食安全问题。粮食安全问题成为各国关注的焦点,实现农业的绿色可持续发展至关重要。农业生
学位
随着生物医学领域和医疗保健领域数据的迅猛增长,大量的数据挖掘技术与机器学习方法已被广泛应用于医学领域。然而,由于医疗数据具有冗余性、复杂性、不完整性等特点,分析的准确性会受到一定影响。除此之外,对于不同地区,某些疾病往往会存在不同的区域性特点,这也会削弱模型对疾病的预测能力。与此同时,脂肪肝作为一种目前世界上最为常见的肝病,如何通过数据挖掘技术辅助进行防治工作无疑是一个有价值的研究领域。本文采用了
学位
大数据时代,基于一些数学与统计方法的研究带动了很多产业的发展,量化投资就是之一,其是将一些定量的方法应用到传统的金融股票市场,借助计算机强大的计算能力和一些算法的超强学习能力来辅助投资者做出投资决策,为投资者规避风险、获得超额收益。量化选股是量化投资的具体形式之一,其比较重要的两部分是如何量化(即构建因子)和如何选股(即选择哪几支股票),本文主要关注如何选股。对于因子构建环节,考虑到因子的短暂有效
学位
突发重大传染疾病可能给社会经济带来难以补救的损失。重大传染疾病一旦发生,医院是控制疫情蔓延的主要场所,为了保证医院有序不乱的进行抗疫工作,快速高效的护士排班尤为重要,传统手工排班方法耗时太长,且排班结果满意度不理想,影响了护士的身心健康。论文对抗疫期间的医院护士进行了调研统计,确立了护士排班的硬约束条件:每个护士每天只有一个班型;每个班型至少一名ICU护士,一名传染病科护士,一名呼吸科护士;上了中
学位
当前,中国经济正从高速发展向高质量发展进行转型。十四五规划报告中,淡化了GDP增速,强调了经济高质量发展。中小企业作为社会经济建设的重要组成部分,是我国经济发展的重要力量,对扩大就业、改善民生、促进创新创业提供强大推力。中小企业的发展需要资金支持,向商业银行贷款是一种常见有效的方式。但是由于中小微企业存在成立时间短、存活周期不长,导致其抗击风险能力较弱,众多商业银行对中小微企业风险评估难度大,其结
学位
在临床、生物医学应用、经济学等众多领域中,经常需要对不同来源、不同类型的研究对象进行重复测量,而对于此类纵向数据的建模分析,混合效应模型提供了一个有用且灵活的框架,如两步估计、广义估计方程(GEE)估计量、标准局部多项估计量等。但上述传统的非参数回归建模方法都没有考虑到随机效应曲线的估计。同时,在纵向数据的实际应用中,往往存在多个变量对观测个体影响显著的情况,当变量个数较多时,变量之间的多重相关性
学位
医学数据挖掘是现今数据挖掘技术的重要研究方向之一,多年来始终是统计学与医学的研究热点。在机器学习高速发展的今天,对于医学数据的处理更加值得关注。而针对于医学领域来说,心血管疾病是目前致死率最高的一类疾病,所以对心血管疾病数据的研究变得非常重要。由于医学数据的高维性,为了能够更快地得到准确预测结果,一般来说需要对数据进行降维处理,在统计学中,常用的降维方法是主成分分析。但是对于医学数据来说,主成分分
学位
互联网改变了人们生产生活的方式,政府设置了微信、微博、市长信箱、阳光热线等网络问政平台,目标是激励更多的老百姓通过网络参政问政,从而汇聚民智,解决民众日常所需,提升民众对政府的满意度,树立政府全心全意地为人民服务的良好形象。网络问政平台关于社情民意的留言文本数据量大而杂,仅靠人工经验进行分类处理,很难及时地到达政府相关的职能部门,尤其是留言中的热点话题的处理时间滞后太久,将会极大地损害党和政府在人
学位