论文部分内容阅读
随着近年来互联网的发展,促使了“互联网+”的兴起,烟草企业已经拥有了庞大的零售户信息数据。零售户在全国范围内的数量已经超过了800万家,每月都会产生大量订单信息,随着时间的推移,这个订单信息数据量已经达到TB级别。然而,企业最初搭建的硬件设备和软件不具有存储和处理这些数据的能力,因此导致有价值的信息无法提取出来,形成一个尴尬的局面。本文结合全国零售户不断剧增的信息数据与现有的大数据存储技术,提出了基于Hadoop的全国零售户订单数据分析系统的架构,详细分析了Hadoop集群节点存储性能和响应时间,实现了海量数据的存储与处理。基于ARIMA预测模型,建立了销售预测模型,并对该模型进行了验证,根据预测提出了基于预测的营销模式,还提出了对零售户终身价值的计算方式,为决策者提供对零售户的忠诚度提升策略。具体研究内容如下:1)根据全国零售户订单数据的性质,提出了一种基于Hive的数据存储模型,该模型是对海量数据进行分区管理,采用月单位划分数据分区表。采用该模型解决针对全国零售户订单数据的应用存储和负载均衡问题。2)探讨了对整个HDFS常用的数据处理办法,并根据存储数据的实际情况,提出了一个在异构集群下减少数据处理的响应时间的算法,该算法是分析集群性质和对集群处理数据的执行响应时间提出一种基于节点计算性能的数据分配策略。针对全国零售户数据,运用该分配策略建立一个数据处理模型,降低数据在网络上传输,防止数据拥塞,提供集群的时效性。3)企业具有敏锐的市场感知、把握市场动态和市场方向的能力,关键在于对大数据的挖掘。本文从市场感知和市场响应角度,在大数据的基础上,运用ARIMA销售预测模型来预测市场销售,并且提出了一种计算零售户市场价值、忠诚度的方法,缓解重要决策对个人经验的依赖,为品牌投放和市场响应提供了有效的信息支撑。4)基于Hadoop的数据存储技术建立了一个大数据处理平台,设计了一个以企业产生的零售数据为导向的数据存储的生态大循环、以战略为牵引的大数据平台中循环和以数据信息为核心的数据同步处理的内部3个生态小循环的三层生态循环系统架构。