论文部分内容阅读
随着企业信息化的推进与发展,销售数据急聚增加,由于销售数据在企业决策中的重要作用,挖掘销售数据中的有用信息是亟待公司解决的问题。研究出能够在大数据环境下挖掘销售数据有效信息的数据处理方法,正确地使用海量数据中挖掘出来的有效信息也是企业的迫切需求。本文利用海量销售数据中包含的销售数据走势预测未来销售数据的趋势,感知市场状况,掌握市场动向,给企业销售决策者提供有效的销售数据动向参考信息,为生产、营销,以及判断市场状况提供决策依据。围绕以上问题,本文对于大数据环境下的企业销售数据挖掘算法和企业市场的预测模型做了一下主要研究:(1)运用Hadoop平台存储大数据,并且运用Hadoop的MapReduce抽取需要处理的数据,并导入到关系型数据库中,根据数据挖掘算法中对数据结构的需求,针对数据中的不同的数据异常对数据使用不同的清洗策略进行清洗与数据规范,再将处理后的数据交付给关系型数据库。(2)针对传统的大数据挖掘算法存在的问题,本文提出了基于分块后重叠k-means聚类的KNN分类算法,算法通过给传统KNN算法增加一个训练过程的方式让KNN算法能够运用于大数据环境,并且能够快速准确地对数据进行分类,大大提升了分类算法的效率。并且通过新算法,对零售户数据中的几个规格卷烟的销售详情进行分类,统计其分类结果,与实际的数据进行了对比,验证了算法的可行性与准确性。(3)分析各类预测模型对于本文的研究内容的适用性,根据本文的数据特点以及预期的预测结果数据特点选择了适合的预测模型:差分自回归滑动平均模型(ARIMA(p,d,q))与灰色模型,作为本文的市场感知模型的基础。(4)以企业的零售数据为实验数据,建立结合ARIMA差分自回归滑动平均模型与灰色模型的市场感知模型。根据ARIMA自回归移动平均模型能够准确地预测未来短期的销售数据,但是,由于随着预测时间越长预测的准确率越低的特点,在ARIMA模型的基础上使用灰色拓扑模型进行长期的销售数据预测,让企业能够看到的不仅仅是未来半年或者一年内的销售数据的预测,而且能给企业提供更加准确掌握未来市场动向的数据。