大数据下电商食品数据的统计挖掘

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:endest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电商数据纳入CPI计算是目前亟待解决的一个大问题,由于食品数据有不同于其它品类数据的一系列特性,电商食品CPI计算的研究属于目前CPI计算缺失的一个方面。为了研究大数据背景下电商食品CPI指数的计算,本文通过对京东到家14个大中城市约一亿条订单数据的统计挖掘,计算出了代表14个大中城市食品消费价格水平变动情况的电商食品价格指数。对促进电商数据纳入CPI的计算有很大的借鉴意义。文中食品价格指数计算采用机器学习与传统价格指数计算结合的方法。主要分为两部分:第一部分为数据准备阶段,鉴于电商食品大数据的数据量大和电商数据数据噪声非常大的特点,本文研究花费大量的精力研究电商食品数据的统计挖掘。首先结合一篮子商品列表词典和干扰词典进行模式匹配,准确识别出不同类别的食品数据和无效数据初次剔除,完成数据预处理;其次,用Logistic算法和支持向量机训练无效数据识别模型,然后用随机森林和AdaBoost算法进行肉类数据分类模型训练,比较不同的模型效果选择最优模型完成无效数据二次剔除和肉类数据的分类,最后对肉类数据进行数据转换。第二部分为消费者价格指数计算,首先以商品代码为基本分类的项目区分标准,计算项目内的单位价格,接着用Jevons价格指数公式计算基本分类的初级价格指数。接着以国家统计局公布的消费支出为权数计算各高层级价格指数。将电商食品价格指数和国家统计局公布食品价格指数做对比分析,最后分析电商食品价格指数的应用场景,对后续价格指数权数的调整也进行了理论介绍。
其他文献
本文以隋树森编辑的《全元散曲》中所收录的19家浙江元人的1354首散曲(包括套数)为实际语言材料,系联归纳出浙江元人用韵的19韵部,结合江浙一带的吴语方言分阴声韵、阳声韵、入声韵三方面
商事制度改革的核心是对政府和市场之间的关系进行梳理和重新定义,意在建成公正、健康、安全、透明的商事管理体系。目前,我国的商事制度改革历程已逾五年,各级政府机关坚持
DNA显微注射是生产转基因动物最可靠和最常使用的一种方法,外源DNA的纯度对显微注射的成功起着至关重要的作用.本文介绍用氯化钠密度梯度离心的方法制备用于显微注射的外源DN
参照已报道小鼠受精抗原1(FA1)基因序列设计引物,运用PCR和PCR产物克隆测序等方法,对人受精抗原1(hFA1)基因进行了克隆,并对两者进行了比较,结果显示:(1)已报道的小鼠FA1基因
利用RAPD技术,从248个随机寡聚核苷酸(10bp)中筛选出13个引物能在供试的三组三系杂交水稻及亲本间扩增出43条稳定性较好的多态性片段,其中6个引物能在供试材料间扩增出20个强
背景:城市热岛(Urban heat island,UHI)效应是主要由人类聚集活动引起的区域性气候变化现象。在全球城市化进程加速和气候变暖的背景下,城市热岛效应日益明显。基于公共卫生的视角,热岛效应可增加高温相关的健康风险。然而,以往的研究主要集中于热相关健康风险的变异,较少直接量化UHI效应对死亡率的影响,且忽视了小空间尺度UHI效应的差异。本研究选取高度城市化的广州市作为研究地点,探讨城市热
21世纪初,美国爆发了一系列财务舞弊事件,从安然公司申请破产保护开始,到世界通讯、施乐、时代华纳等各大公司丑闻不断且规模"屡创新高"。此类事件不仅使广大投资者产生巨大恐慌,也给证券市场造成沉重打击。为了提高对上市公司内部控制的质量并避免这一局面再发生,美国国会和政府加速通过《萨班斯—奥克斯利法案》(Sarbanes-Oxley Act,以下简称SOX法案)要求企业对内部控制的有效性进行评价和报告。
摘要:本文从国内外小班化教学的兴起入手,详细分析了古今中外教学模式的发生、发展和衍变过程,进而阐述了小班化教学的基本内涵和教学理念,不仅描述了有效教学,还剖析了小班化教学模式的优劣。最后,笔者从教学观念、竞争意识、辩证态度以及MOOC的长久影响等诸多个方面,对小班化教学模式做了辩证思考。该文对广大的教育工作者有一定参考作用。  关键词:教学模式;小班化;衍变;优势;劣势;辩证思考;MOOC  中图
为了检测peripherin基因(PRPH)的突变与高度近视的病因有无相关关系,采用PCR-SSCP检测180例中国人高度近视先证者及60例正常人中PRPH基因所有外显子有无突变;对有突变的外显
近年来,我国慈善事业朝着依法治理、制度完善、作用显著、管理规范、健康有序的格局发展。其中,官办慈善组织作为我国慈善事业的重要载体,在社会福利供给、推动社会公平等方