论文部分内容阅读
摘要:目前,市场营销决策技术已成为商家获得成功的关键因素之一。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理。结合数据挖掘技术,一种称之为购物篮分析方法,对市场营销行为决策具有重要的意义,已越来越受到零售企业的重视。
关键词:市场营销;数据挖掘;购物篮分析;聚类
中图分类号:F713.50
文献标识码:A
一、问题提出
在市场竞争日趋激烈及顾客消费心理日趋成熟的今天,充分研究市场营销的决策技术已成为商家成功经营至关重要的因素。大多数零售企业已认识到这一点,在这方面做了不少努力,如各种常客登记分析、计算机铺助销售、人口统计分析等方法,但仍有不少零售企业并未真正了解市场营销的决策技术。目前,国外出现了一种称之为购物篮分析的方法,已越来越受到零售企业的重视。
1.现代零售商品种类极端丰富,消费者需要处理的信息量急剧增加。消费者平均要以每秒33件的速度从5万件商品中挑选出17件商品。Phillips(2005)的研究表明,当消费者面对种类繁多的商品时,并不会因为可选择的丰富多样性而得到满足。但是,消费者却能够因为超市对其商品选择的引导而感到满意。超市引导顾客的一个有效办法就是合理的商品布货。也就是说,哪些商品可以摆放在一起,而哪些商品又应当分别摆放。
2.可以观察到商场和超市经常进行各种促销,其中最常见的促销方式是打折,而且,常常是全场打折。这样的打折往往不是超市最优的选择。因为,消费者在购买某些商品的时候,会同时购买另一些商品,而不管它们是否打折。在这种情况下,只要这两种商品之一处于打折状态,而另一种也极有可能受到刺激而销售量大增。如果是这样,超市只需要对一种商品打折就可以达到促销两种商品的目的,从而可以大大提高超市的效益。
因此,了解消费者究竟如何在多商品类目间进行同时购买对于超市如何有效地引导消费者和提高效益意义重大。所以,介绍一个简单而有效的数量方法,可以用来做典型的购物篮分析。笔者切入点是市场营销行为的决策研究与计算机数据挖掘技术的结合。
二、购物篮分析的研究
购物篮分析是指一组与了解销售点交易数据有关的商业问题。
1.购物篮(market basket)指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。购物篮数据描述了三个完全不同实体的交易数据:顾客、订单(也称购买或篮子,在计算机学术论文中称为项集)、项。
在数据挖掘技术实现上,关系数据库中,购物篮的数据结构模型如图1所示,该结构包括四个重要实体。
订单是购物篮数据的基本数据结构。一个订单代表顾客的单个购买事件。这可能对应于客户订购的若干产品,或顾客购买的一篮子商品,或顾客从一个目录中购买了若干项。包括购买的总量、订单日期、支付类型、总价及与该交易有关的其他数据。该交易被赋予唯一的订单标识。
订单中的单个项称为订单项。包括订单产品数量、支付单价、税款标识,项表中通常还有一个到产品参照表的连接——产品标识。
客户表是一个可选的表格。但顾客被识别时应当是可用的。客户表包含令人感兴趣的字段,其中最吸引人的是标识,因为它把交易与时间结合起来。
时间和地址是购物篮数据最重要的两个属性。
2.购物篮分析(market basket analysis)是指通过购物篮子所显示的信息来研究顾客的购买行为。
消费者的购物篮隐含着重要且有价值的信息,等待人们去发掘。如:可以知道消费者的购买习惯、产品偏好、品牌忠诚度等等。而笔者尝试通过合理的数量方法,研究产品的相关性。也就是说,哪些产品互相之间具有很强的相关性,从而可以知道,当一个消费者购买其中一个产品的情况下,极有可能同时购买另外一个产品,这对于超市合理定价、促销等具有重要的指导意义。此类研究在国外已有成功案例,而在国内市场营销界的文献资料中则较少见到。
国外对消费者同时购买行为最深入的数量研究,应该属于Manchanda,Ansari,以及Gupta(1999),他们提出了一个基于随机效用函数(Random UtilityTheory)的多种类同时购买决策(Multicategory Pur-chase Incidence Decision)的模型,该模型通过贝叶斯多维Probit模型(Bayesian Multivariate Probit Model),精细地刻画了各个消费者的同时购买行为特征,并同时考虑到了消费者异质性(Heterogeneity)的影响。类似的基于贝叶斯框架的消费者选择模型(Bayesian Consumer Choice Model),大量地存在于文献当中。有兴趣的读者,可以在最近的Rossi,Allenby,和Mc-Culloch(2005)找到很好的介绍及相关文献。
由于此类模型充分地考虑了消费者的异质性,因此有可能被用来为面向消费者的个性化的营销决策(Customized Marketing Decision)服务。但是,该模型的优点也恰恰是他的缺点。
由于贝叶斯方法所需要的MCMC(Markov Chain Monte Carlo)算法,例如,Manchanda,Ansari,以及Gupta(1999)的原始文章只考虑了4种产品种类,这显然远远不能够满足现实的需要。以超市为例,售额起决定作用的产品至少有几十类,这在数据上反映出来就是一个非常高维的数据,而此类方法显然无法适用。以准确跟踪,换句话说,研究者必须能够从数据中辨认出同一消费者在不同时间的购买纪录,这就意味着该超市必须有完善的会员制度,以及详细准确的会员信息。因此,对于很多超市,有必要研究并介绍一种简单易懂,对数据要求低,而且能够处理高维数据的分析方法,以便于探索消费者同时购买行为的规律。
三、数据挖掘及任务类型
1.数据挖掘(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法,其数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究。另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不 再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有商业企业面临的一个共同问题是:数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征:
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着人的联系。
数据挖掘能用来解决成百上千的商务问题。根据这些问题的内在本质,可以将数据挖掘的任务划分为各种类型,其中常用的分类是一种定向的挖掘,目的是发现特定目标的值。而聚类是一种非定向的挖掘,目的是在不限定特定目标的情况下揭示数据的结构。
2.聚类(clustering)也被称作分割。它被用于基于样本的属性,识别在样本中存在的分组。在同一分组内的样本具有更多类似的属性值。例如,一个包含有两个属性(年龄和收入)的客户数据集,聚类算法可将这些客户划分为3个分割。分割l包含了年轻收入低的客户,分割2包含了中年收入高的客户,分割3包含了老年收入相对较低的客户。由于聚类算法是一个非指导型(unsupervised)数据挖掘,其所有的输入都同样对待,没有一个属性直接用来指导模型的构建。大多数聚类算法在构建模型时,都需要进行多次的迭代直到算法收敛。算法收敛指模型中所有分割的边界都已经趋于稳定。
四、市场营销行为的数据挖掘效果
为了达到以上目的,将同时购买行为规范成一个典型的聚类问题(Clustering Problem)——按用处聚类产品。具体地说,通过这种聚类可引出下列问题:(1)节食产品趋于一同销售吗?(2)客户在同一时间购买同色系的服装吗?(3)购买海报产品的客户也买其他产品吗?
同时购买行为规范成一个典型的聚类问题已被广泛研究并发展完善,有兴趣的读者可以通过Johnson和Wichern(2003)以及Hastie,Tibshirani,和Fried-man(2001)获得一个完整的介绍。该方法通过对数据的转轴,如图2所示,以便每行代表一个订单或顾客。对购买的每一件产品有标记或计算器。由于零售业有几万种不同产品,为了减少列的数目,这种转换可以在分类层面进行,而不是单个产品层面。
通常有大量关于产品的可用信息,除产品分层外,还可以包括服装颜色、食品是否是低卡路里、海报是否有背景等,不但可以被用来做典型的购物篮分析,而且简单易行并具有良好的直观意义,可直接指导市场营销行为。
五、总结与讨论
通过对超市消费者的购物篮进行分析,可发现一些很有意义的现象。有的是可以预见的,例如,特定项的流行性随时间变化的;而有些则是出乎人们进一步研究的内容,例如,在重复购买的客户中发现最普遍的项是什么等。虽然无法对这些行为背后的原因进行推断,但深入研究这些背后的推动因素是一个很有意义的方向。不论怎样,发现这些相关性对于指导未来的超市经营管理具有一定的借鉴意义。例如,可以考虑对高度相关产品的某种大力促销,而对另外一种保持原价,甚至提高价格。消费者会因为其中打折促销产品的吸引而光顾超市,但是他们除了会购买打折产品之外,还会购买与之高度相关的产品。而超市由于部分促销让利所造成的损失,可以由此而获得相应的甚至更多的补偿。当然,本研究不可避免地具有一定的局限性,具体地说:
1.由于笔者的重点在于发现具有强相关关系的产品,而不是对所发现的同时购买行为的隐含推动因素进行深入研究和分析。因此,无法对消费者同时购买这些相关性很强的商品的深层次原因进行具体分析。而造成该局限性的另外一个原因在于数据的局限性,即绝大多数消费者拒绝透露详细的个人信息。
2.笔者提出的数量方法有一定的局限性。由于相关性强度是有限的,因此能够起到的指导作用也是有限的。
(责任编辑:阿 莲)
关键词:市场营销;数据挖掘;购物篮分析;聚类
中图分类号:F713.50
文献标识码:A
一、问题提出
在市场竞争日趋激烈及顾客消费心理日趋成熟的今天,充分研究市场营销的决策技术已成为商家成功经营至关重要的因素。大多数零售企业已认识到这一点,在这方面做了不少努力,如各种常客登记分析、计算机铺助销售、人口统计分析等方法,但仍有不少零售企业并未真正了解市场营销的决策技术。目前,国外出现了一种称之为购物篮分析的方法,已越来越受到零售企业的重视。
1.现代零售商品种类极端丰富,消费者需要处理的信息量急剧增加。消费者平均要以每秒33件的速度从5万件商品中挑选出17件商品。Phillips(2005)的研究表明,当消费者面对种类繁多的商品时,并不会因为可选择的丰富多样性而得到满足。但是,消费者却能够因为超市对其商品选择的引导而感到满意。超市引导顾客的一个有效办法就是合理的商品布货。也就是说,哪些商品可以摆放在一起,而哪些商品又应当分别摆放。
2.可以观察到商场和超市经常进行各种促销,其中最常见的促销方式是打折,而且,常常是全场打折。这样的打折往往不是超市最优的选择。因为,消费者在购买某些商品的时候,会同时购买另一些商品,而不管它们是否打折。在这种情况下,只要这两种商品之一处于打折状态,而另一种也极有可能受到刺激而销售量大增。如果是这样,超市只需要对一种商品打折就可以达到促销两种商品的目的,从而可以大大提高超市的效益。
因此,了解消费者究竟如何在多商品类目间进行同时购买对于超市如何有效地引导消费者和提高效益意义重大。所以,介绍一个简单而有效的数量方法,可以用来做典型的购物篮分析。笔者切入点是市场营销行为的决策研究与计算机数据挖掘技术的结合。
二、购物篮分析的研究
购物篮分析是指一组与了解销售点交易数据有关的商业问题。
1.购物篮(market basket)指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。购物篮数据描述了三个完全不同实体的交易数据:顾客、订单(也称购买或篮子,在计算机学术论文中称为项集)、项。
在数据挖掘技术实现上,关系数据库中,购物篮的数据结构模型如图1所示,该结构包括四个重要实体。
订单是购物篮数据的基本数据结构。一个订单代表顾客的单个购买事件。这可能对应于客户订购的若干产品,或顾客购买的一篮子商品,或顾客从一个目录中购买了若干项。包括购买的总量、订单日期、支付类型、总价及与该交易有关的其他数据。该交易被赋予唯一的订单标识。
订单中的单个项称为订单项。包括订单产品数量、支付单价、税款标识,项表中通常还有一个到产品参照表的连接——产品标识。
客户表是一个可选的表格。但顾客被识别时应当是可用的。客户表包含令人感兴趣的字段,其中最吸引人的是标识,因为它把交易与时间结合起来。
时间和地址是购物篮数据最重要的两个属性。
2.购物篮分析(market basket analysis)是指通过购物篮子所显示的信息来研究顾客的购买行为。
消费者的购物篮隐含着重要且有价值的信息,等待人们去发掘。如:可以知道消费者的购买习惯、产品偏好、品牌忠诚度等等。而笔者尝试通过合理的数量方法,研究产品的相关性。也就是说,哪些产品互相之间具有很强的相关性,从而可以知道,当一个消费者购买其中一个产品的情况下,极有可能同时购买另外一个产品,这对于超市合理定价、促销等具有重要的指导意义。此类研究在国外已有成功案例,而在国内市场营销界的文献资料中则较少见到。
国外对消费者同时购买行为最深入的数量研究,应该属于Manchanda,Ansari,以及Gupta(1999),他们提出了一个基于随机效用函数(Random UtilityTheory)的多种类同时购买决策(Multicategory Pur-chase Incidence Decision)的模型,该模型通过贝叶斯多维Probit模型(Bayesian Multivariate Probit Model),精细地刻画了各个消费者的同时购买行为特征,并同时考虑到了消费者异质性(Heterogeneity)的影响。类似的基于贝叶斯框架的消费者选择模型(Bayesian Consumer Choice Model),大量地存在于文献当中。有兴趣的读者,可以在最近的Rossi,Allenby,和Mc-Culloch(2005)找到很好的介绍及相关文献。
由于此类模型充分地考虑了消费者的异质性,因此有可能被用来为面向消费者的个性化的营销决策(Customized Marketing Decision)服务。但是,该模型的优点也恰恰是他的缺点。
由于贝叶斯方法所需要的MCMC(Markov Chain Monte Carlo)算法,例如,Manchanda,Ansari,以及Gupta(1999)的原始文章只考虑了4种产品种类,这显然远远不能够满足现实的需要。以超市为例,售额起决定作用的产品至少有几十类,这在数据上反映出来就是一个非常高维的数据,而此类方法显然无法适用。以准确跟踪,换句话说,研究者必须能够从数据中辨认出同一消费者在不同时间的购买纪录,这就意味着该超市必须有完善的会员制度,以及详细准确的会员信息。因此,对于很多超市,有必要研究并介绍一种简单易懂,对数据要求低,而且能够处理高维数据的分析方法,以便于探索消费者同时购买行为的规律。
三、数据挖掘及任务类型
1.数据挖掘(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法,其数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究。另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不 再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有商业企业面临的一个共同问题是:数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征:
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着人的联系。
数据挖掘能用来解决成百上千的商务问题。根据这些问题的内在本质,可以将数据挖掘的任务划分为各种类型,其中常用的分类是一种定向的挖掘,目的是发现特定目标的值。而聚类是一种非定向的挖掘,目的是在不限定特定目标的情况下揭示数据的结构。
2.聚类(clustering)也被称作分割。它被用于基于样本的属性,识别在样本中存在的分组。在同一分组内的样本具有更多类似的属性值。例如,一个包含有两个属性(年龄和收入)的客户数据集,聚类算法可将这些客户划分为3个分割。分割l包含了年轻收入低的客户,分割2包含了中年收入高的客户,分割3包含了老年收入相对较低的客户。由于聚类算法是一个非指导型(unsupervised)数据挖掘,其所有的输入都同样对待,没有一个属性直接用来指导模型的构建。大多数聚类算法在构建模型时,都需要进行多次的迭代直到算法收敛。算法收敛指模型中所有分割的边界都已经趋于稳定。
四、市场营销行为的数据挖掘效果
为了达到以上目的,将同时购买行为规范成一个典型的聚类问题(Clustering Problem)——按用处聚类产品。具体地说,通过这种聚类可引出下列问题:(1)节食产品趋于一同销售吗?(2)客户在同一时间购买同色系的服装吗?(3)购买海报产品的客户也买其他产品吗?
同时购买行为规范成一个典型的聚类问题已被广泛研究并发展完善,有兴趣的读者可以通过Johnson和Wichern(2003)以及Hastie,Tibshirani,和Fried-man(2001)获得一个完整的介绍。该方法通过对数据的转轴,如图2所示,以便每行代表一个订单或顾客。对购买的每一件产品有标记或计算器。由于零售业有几万种不同产品,为了减少列的数目,这种转换可以在分类层面进行,而不是单个产品层面。
通常有大量关于产品的可用信息,除产品分层外,还可以包括服装颜色、食品是否是低卡路里、海报是否有背景等,不但可以被用来做典型的购物篮分析,而且简单易行并具有良好的直观意义,可直接指导市场营销行为。
五、总结与讨论
通过对超市消费者的购物篮进行分析,可发现一些很有意义的现象。有的是可以预见的,例如,特定项的流行性随时间变化的;而有些则是出乎人们进一步研究的内容,例如,在重复购买的客户中发现最普遍的项是什么等。虽然无法对这些行为背后的原因进行推断,但深入研究这些背后的推动因素是一个很有意义的方向。不论怎样,发现这些相关性对于指导未来的超市经营管理具有一定的借鉴意义。例如,可以考虑对高度相关产品的某种大力促销,而对另外一种保持原价,甚至提高价格。消费者会因为其中打折促销产品的吸引而光顾超市,但是他们除了会购买打折产品之外,还会购买与之高度相关的产品。而超市由于部分促销让利所造成的损失,可以由此而获得相应的甚至更多的补偿。当然,本研究不可避免地具有一定的局限性,具体地说:
1.由于笔者的重点在于发现具有强相关关系的产品,而不是对所发现的同时购买行为的隐含推动因素进行深入研究和分析。因此,无法对消费者同时购买这些相关性很强的商品的深层次原因进行具体分析。而造成该局限性的另外一个原因在于数据的局限性,即绝大多数消费者拒绝透露详细的个人信息。
2.笔者提出的数量方法有一定的局限性。由于相关性强度是有限的,因此能够起到的指导作用也是有限的。
(责任编辑:阿 莲)