基于数据挖掘技术的商品陈列研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:raincy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]商品陈列的科学性的研究,借助于数据挖掘的技术从海量的销售数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息。本文综述了各种常用的数据挖掘算法和评价标准。
  [关键词] 数据挖掘决策树神经网络
  
  数据挖掘是从海量数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的非平凡过程,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等多学科的成果。其中在商业数据挖掘技术超市陈列研究不可能另起炉灶,新建一套数据库。因此需要借助原有的超市销售管理系统中积累了海量的销售与经营数据,并建立在数据仓库技术(Data Warehouse,DW)和联机分析处理(On-Line Analysis Processing, OLAP)技术的基础上,运用关联分析、分类、聚类分析和预测分析等数据挖掘方法,从海量的交易数据中发掘有价值的知识,为超市的决策者提供科学的决策信息和依据。
  一、数据仓库技术与联机分析处理
  所谓数据仓库就是一个专门的用来保存从多个数据库或其它信息源选取的已有数据,并为上层应用提供一个统一的用户接口,用以完成数据的查询和分析。数据仓库概念创始人英蒙(William H. Inmon)在《Building the Data Warehouse(建立数据仓库)》一书中对数据仓库的定义是:“数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。”
  数据仓库的基本结构可分为4个部分:数据源、数据仓库、应用工具和可视化用户应用界面。
  1.数据仓库是整个系统的核心,设在大型超市的总部。系统将各个零售数据经抽取、变换、净化、加载和汇总后进人数据仓库。
  2.数据源所提供的历史数据是创建数据仓库的基础,分为内部数据源和外部数据源。内部数据源主要来自于超市日常运营系统所提供的数据,它包括每天的POS销售数据、库存数据、采购数据、财会数据、供应商数据及客户数据等,可以是异种或异构数据库,也可以是非传统的数据,例如Word文档、HTML,Excel电子表格等。外部数据源是指来自商家的专门调查或相关部门统计的数据,如竞争对手信息、行业统计信息、市场占有率等。
  3.应用工具主要指OLAP工具和数据挖掘工具。OLAP可以按照分析人员的要求,快速灵活地进行大量数据的复杂查询处理,并可以通过可视化前端服务以一种直观易懂的方式将分析的结果呈现给分析人员。数据挖掘工具是从大量数据中寻找尚未发现的重要信息。
  4.可视化前端服务是面向用户的需求将分析结果以方便用户理解的方式呈现给用户,以支持用户进行决策。
  联机分析处理是一个与数据仓库高度相关的概念,1993年由关系数据库之父爱德华•库德(E•F•Codd)博士于提出的,是一种用于组织大型商务数据库和支持商务智能的技术。OLAP数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:
  (1)数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。
  (2)应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。
  (3)表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
  从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。
  二、数据预处理与算法综述
  因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大。基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform & Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤。主要涉及到数据清理、数据集成与变换和数据规约等技术。
  数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,Operational Data Store)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3。对于先导型数据挖掘而且这个部分需要不断的反复做。
  因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大。基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform & Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤。主要涉及到数据清理、数据集成与变换和数据规约等技术。
  数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,Operational Data Store)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3。对于先导型数据挖掘而且这个部分需要不断的反复做。
  1.数据清理:通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致数据,主要是达到格式标准化、异常数据清除、错误纠正和清除重复数据的效果。
  2.数据集成与变换:将多个数据源中的数据结合起来并统一存储过程实际上就是数据集成,即数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据集中区或数据集市)中。这些数据源可能包括多个数据库、数据立方体或一般文件。主要涉及实体识别、冗余和数据值冲突的检测与处理三方面问题。
  3.数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。这样,对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的分析结果。
  因为不同超市采用不同销售管理系统,而且格式差异很大,采集的数据质量太差并且格式不一致,本文将数据仓库数据导入一个Excel 表格,进行手工处理。
  由于挖掘数据量一般比较大,因此,算法的时空复杂性成为许多挖掘工具实际应用中的重要限制因素。如果算法的复杂性随着数据量的增大、模式精细度的提高、准确度要求的增加而呈现指数增长,就将严重限制数据挖掘工具的应用。
  为了了解数据挖掘工具解决复杂问题的能力大小.可从挖掘工具的模式应用、数据选择和转换能力、可视化程度、扩展性等方面考察。
  多种类别模式的结合使用往往有助于发现有用的商业模式,降低问题的复杂性。特别是与分类有关的模式,可用不同的算法来实现,以适应不同的需求环境。数据挖掘工具如果能够提供多种途径产生同种模式,可以提高其解决复杂问题的能力。
  数据选择和转换能力对挖掘工具解决复杂问题能力的影响也是相当大的。因为知识模式通常被大量的数据项所隐藏,这些数据有的是冗余的,有的是完全无关的。这些数据项的存在会影响有价值模式发现的能力。数据挖掘工具的一个很重要功能,就是能够减低数据的复杂性,提供选择正确数据项和转化数据值的能力,这些能力都将增加数据挖掘工具解决复杂问题的能力。
  可视化工具不仅为用户提供了直观、简洁的数据挖掘方法,方便了用户使用数据挖掘工具;更重要的是可视化工具有助于用户对重要数据的定位,对模式质量的评价,从而降低解决复杂问题时建模的难度。
  三、影响购买的因素
  为方便处理,将品牌根据销量归一化(即根据销量加权平均),同时将所有饮料同质化处理,即不考虑其口味和品种,仅考虑其由于其摆放位置高度、深度和摆放幅度(宽度),以及视角和色彩种类。
  表描述统计表
   N Minimum Maximum Mean Std. Deviation
  超市面积(m^2) 45 20 3200 219.76 469.703
  超市经营货品种类 45 300 29800 3153.56 4512.070
  月销售额(万元) 45 2 2500 73.44 370.152
  POS机数量(台) 45 1 20 2.89 3.151
  营业时间(hr) 45 12.0 24.0 15.056 3.0080
  周边小区 45 0 7 2.87 1.700
  客户行走动线长度 45 5 200 18.01 28.707
  最大客户线密度(个/m) 45 .1 1.9 .956 .5692
  货架高度(m) 45 1.59 4.00 3.0174 .76483
  货架格数 45 4 6 4.98 .783
  货架深度 44 1 6 4.20 .878
  货架宽度 45 1 5 2.76 1.368
  视角(度) 45 0 42 20.37 12.344
  色彩种类 45 1 5 3.00 1.446
  
  四、主成分分析原理
  目前超市,其选择的样本数量都在几十个到一百多个,所使用的指标大多是根据主观判断选择能影响产品销售的指标作为模型的输入变量,所选的指标数量在几个到几十个之间。由于样本量多数偏小,不足以体现数据挖掘技术的优势,而且尽管在样本选择上都采取随机抽样,但是由于数据的可获得性或其他原因,都或多或少对研究结论有一定影响。所以首先要对这些指标进行降维处理,找出最重要的几个影响指标。
  一般来说,指标降维有小波变换和主成分分析(PCA,principal components analysis)两类方法,与小波变换相比,PCA(又称Karhunen-Loeve或K-L方法)能够更好地处理稀疏数据,而小波变换似乎更适合复杂高维结构数据。
  假定待归约的数据由n个属性或维描述的元组或数据向量组成。PCA搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原来的数据投影到一个小得多的空间,导致维度归约。不像属性子集选择通过保留原属性集的一个子集来减少属性集的大小,PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。PCA常常揭示先前未曾察觉的联系,并因此允许解释不寻常的结果。基本过程如下:
  1.对输入数据规范化,使得每个属性都落入相同的区间。此步有助于确保具有较大定义域的属性不会支配具有较小定义域的属性。
  2.PCA计算k个标准正交向量,作为规范化输入数据的基。这些是单位向量,每一个方向都垂直于另一个。这些向量称为主成分。输入数据是主成分的线性组合。
  3.对主成分按“重要性”或强度降序排列。主成分基本上充当数据的新坐标轴,提供关于方差的重要信息。也就是说,对坐标轴进行排序,使得第一个坐标轴显示数据的最大方差,第二个显示次大方差,如此下去。这一信息帮助识别数据中的分组或模式。
  4.既然主成分根据“重要性”降序排列,就可以通过去掉较弱的成分(即方差较小)来归约数据的规模。使用最强的主成分,应当能够重构原数据的很好的近似。
  PCA计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。多于2维的多维数据可以通过将问题归约为2维问题来处理。主成分可以用作多元回归和聚类分析的输入。
  五、结论
  通过主成分分析,安徽某市超市饮料销售与面积和客户行走动线长度高度相关,与其他因素相关性没有通过统计学检验,由于数据采集和相关变量设置缺乏足够的经验,现在只能怀疑数据采集的时点的不相关性导致规律的不明显。
  因为超市的最主要的数据是销售数据,其他数据,如库存数据、采购数据都是围绕着该数据,或说与该数据高度相关。显然,销售数据蕴含的反映顾客购买行为的商品相关性信息,这个是我们最为关心的。此类数据的最大的特点是,基于半文本的,非结构化的,短时段内是随机的(客户间相关性很弱),但是长时段与时间相关(季节趋势),因此对此类数据应该以关联性挖掘算法为主,当然多种类别模式的结合使用往往有助于发现更有用的商业模式,同时有时会降低问题的复杂性。特别是,在销售中分析与归类有关的模式,可用不同的算法来实现,以适应不同的需求环境。数据挖掘工具如果能够提供多种途径产生同种模式,可以提高其解决复杂问题的能力。
  
  参考文献:
  [1] (美)Jiawei Han(韩家炜)and M. Kamber 著,范明等 译,数据挖掘概念与技术 [M].北京:机械工业出版社,2001:1-97
  [2](英)David Hand 等著,张银奎等译,数据挖掘原理 [M].北京:机械工业出版社,2003:64-122
  [3] (意)Paolo Giudici著, 袁方等 译 ,实用数据挖掘 [M].北京:电子工业出版社,2004:1-91
  [4] (美)Pang-Ning Tan(陈封能), Michael Steinbach and Vipin Kumar著, 范明、范宏建 译,数据挖掘导论[M].北京:人民邮电出版社,2006:1-140
  [5]安淑芝 等,数据仓库与数据挖掘 [M].北京:清华大学出版社,2005:53-70
  [6] (美)George M.Marakas 著,敖富江译.数据仓库、挖掘和可视化核心概念.北京:清华大学出版社,2004:79-124
  [7](美)Trevor Hastie,Robert Tibshirani and Jerome Friedman, 范明等 译,统计学习基础:数据挖掘、推理与预测[M].北京:电子工业出版社,2004:135-155,243-258
  
其他文献
[摘要]经济发展宏观调控离不开财政政策,它作为中央政府宏观调控的重要手段,能够指导资源宏观配置,促进产业空间布局的实施和经济格局的形成。这就需要发挥税收政策、财政转移支付制度、投资政策等财政政策,积极发挥促进经济发展。本文就财政政策对经济的影响做出了论述,具有一定的指导意义。  [关键词]财政政策 经济影响    我国今年上半年造成物价水平提高的内外因素明显增多,在很多能源资源以及农产品的价格出现
期刊
[摘要]对18个退出固定汇率制度并经历货币升值的国家的历史数据进行分析,没有发现严重的金融损害迹象。银行危机的各项观测指标在样本国退出固定汇率制度、货币升值前后时期均值大多保持稳定,货币供给和通货膨涨水平有一定降低,国内贸易平衡没有受到明显影响。研究结果表明,中国在实际退出固定汇率制度并保持人民币小幅升值的经济背景下,发生银行危机的概率没有明显变化。  [关键词]货币升值银行危机比较分析    危
期刊
薪酬设计的意义在于通过制度安排有效地把高管人员能力引导到对企业发展有益的行为上来。不同的薪酬构成对企业高管人员具有不同的激励作用,因此薪酬组合的不同会造成高管人员不一样的行为选择,进而影响企业绩效的实现。以下是国内外关于高管薪酬对企业绩效影响研究:  一、高管人员薪酬与企业绩效的关系  1.高管人员薪酬与企业绩效正相关  高夫兰和斯米德(Coughlan & Schmidt,1985)根据1978
期刊
一、商圈理论简介  在理论上,商圈也称购买圈、商势圈,是指在一定经济区域内,以商场或商业区为中心向周围扩展形成辐射,对顾客形成吸引力的一定范围或区域。20世纪30年代德国地理学家克里斯泰勒提出了商圈理论,该理论的要点是,以中心地为圆心,以最大的商品销售和餐饮服务辐射能力为半径,形成商品销售和餐饮服务的中心地。  不同的学者分别从宏观和微观的角度对商圈下过定义。国外学者大多倾向于微观定义,即商圈一般
期刊
[摘 要]大力发展新能源是优化我国能源和经济结构的现实选择、是保障能源安全和应对气候变化的必由之路、是抢占国际竞争制高点的战略突破口。本文通过对宝鸡市新能源产业的SWOT分析,总结了宝鸡市新能源产业发展所存在的优势和劣势,所面临的机遇和挑战,并在此基础上提出了推动宝鸡市新能源产业发展的意见和建议。  [关键词]宝鸡市 新能源产业 SWOT分析 发展战略    一、引言  历史经验表明,每一次全球经
期刊
[摘要]由于近年来房价飚升、房地产市场供求结构不合理、房地产市场投机愈演愈烈等房地产市场问题的突出,国家针对房地产市场先后出台了一系列的公共政策对房地产市场进行宏观调空。但这些政策实施的结果与目标相差甚远、收效甚微。归其原因在于,在地方政府执行公共政策时,房地产商等利益集团从自身利益最大化出发,向政府游说影响政策的执行。而地方政府则为了地方的政绩,替换、抵抗、有选择的传达中央的公共政策,以致于这些
期刊
[摘 要]基于循环经济的运行模式,结合农业循环经济的内涵,以及评价指标体系构建的原则,构建了区域农业循环经济发展水平的综合评价指标体系,包括经济和社会发展、资源减量投入、资源循环利用和生态环境质量4方面共18项操作化指标。  [关键词]运行模式 农业循环经济 评价指标体系    上世纪90年代以来,伴随着资源环境问题的日益严重,国际社会逐步认识到,要实现经济、社会和生态环境“三赢”的战略目标,必须
期刊
[摘 要]本文界定了区域科技人才开发的内涵,根据定义建立了区域科技人才开发水平的多层次评价指标体系,并运用基于格栅获取的模糊Borda数分析法进行综合评价,構建了区域科技人才开发水平评价模型。运用所建立的模型对河北省科技人才开发水平进行综合评价,证明了所建立模型的有效性和实用性。  [关键词]区域科技人才开发 指标体系 评价模型    科技人才是支撑区域经济、社会发展的核心要素,是区域科技创新系统
期刊
[摘 要]随着美国金融危机愈演愈烈,欧元区相继出现主权债务危机,以及中国经济高速发展人民币逐步放开,在世界经济和国际贸易中作用也越来越大之际,人民币国际化问题再次成为世界关注之重点,本文结合多年来国内外学者研究成果着重从现阶段的角度对人民币国际化问题做出较为深入的分析并得出相关结论。  [关键词]人民币国际化 离岸金融 超主权货币    货币是国家经济主权的体现,因此相当多国家发行本国货币并要求在
期刊
[摘 要]服务经济时代的到来,使得生产性服务业对经济发展推动作用凸现,引起了学术界越来越多的关注。本文关注的是生产性服务业促进经济增长的路径机制,在国内外学者的研究基础上提出了生产性服务业促进经济增长的四条路径假说,并以广东省时间序列数据为样本进行了实证检验。研究发现,生产性服务业和几个机制变量之间存在长期协整关系,而格兰杰因果检验的结果证实生产性服务业能够通过促进几个机制变量的增长来促进整体经济
期刊