统计建模与客户分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:officerkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客户分析主要指利用客户已有的购买数据和相关的市场信息,在一定理论的指导下建立统计学模型,从而对客户行为进行描述和预测。客户行为主要包括有购买频率和单次买数量等。  在过去的几十年里,客户关系管理逐渐成为了企业商业行为的重要组成部分(Netzer et.al,2008),这就使得客户分析越来越被重视。客户关系管理主要包含以下市场决策:(1)瞄准高价值客户;(2)决定营销资源的配置;以及(3)区别对待客户从而提高利润率(Kumar et al.,2008)。为了确保客户关系管理的成功实施,企业需要对其客户进行细致分析,挖掘更多更有用的信息,从而回答以下关键问题。  企业一共拥有多少客户?  哪些客户更容易离开该企业,即,停止从该公司购买商品?  客户未来的交易水平如何?  客户是如何响应企业的营销行为的?  前两个问题需要企业预测客户的生命周期,也即客户活跃的时间。第三个问题则要求企业能够预测客户未来的交易频率以及每次交易的交易量。最后一个问题针对客户对于市场营销活动的反映,比如广告,优惠券等是否刺激了客户的消费行为。这些问题的答案将有助于企业估计客户的生命周期价值,而这时客户关系管理里一个重要的数量。  客户分析的普及也得益于如今数据储存和处理成本的下降以及快速发展的信息技术(Danaher and Smith,2011)。数据市场在过去的几年里有着非常明显的发展。全球互联网数据中心的市场规模已经上升了28个百分点。如图1所示,截至2012年,全球市场规模已经达到了255.2亿美元,其中亚洲市场所占份额越来越高。在中国,有超过1300家公司从事于互联网数据服务,2012年的总市场份额达到了137.2亿美元(图2)。从这些数据可以看出,对于企业而言,搜集和整理数据将更为轻松,这加大了企业挖掘客户数据的意愿,从而在另一方面刺激了客户分析的应用和推广。  用统计建模的方法来分析客户行为基于一个直观的思想,即过去能够反映未来。统计建模的过程就是去寻找某一个或某些个特征使得客户过去的行为和其未来的行为能够联系在一起(Fader and Hardie,2009)。因此,总体上来说,客户分析主要包含两个步骤:第一步是根据客户过去的行为寻找到关键特征;第二个则是用该特征去预测未来的交易情况。详细来说,它可以被拆解为以下步骤。  首先,对于一个特定的客户数据,并非每一种模型都适用。因此,在建模之前,研究者需要理解该数据的组成。比如,该数据中是否还有客户基本面信息,是否记录了客户每次购买所花费的金额等等。在多数情况下,数据需要被再处理成建模所需要的形式。例如,在建立BG/NBD模型(Fader et al.,2005)的时候,我们需要每个客户在观测时间里的购买次数,最后一次的购买时间和观测时长。然而,通常来说,数据以txt格式呈现,并按时间记录每一次交易,因而需要被再整理。  在得到整理后的数据以后,相关的统计学模型则需要被建立来模拟客户的购买行为,比如购买频率,流失过程,等等。这一建模过程通常涉及到几个对购买过程和客户异质性的假设。在BG/NBD模型中,购买时间间隔被假设为指数分布,流失过程被假设为服从几何过程,而客户异质性则用gamma分布来描述。除了过往交易数据,市场信息(包括优惠券,广告等)也可以被放入模型中来提高预测的准确度。  在第三步,研究者需要估计在上一步骤中涉及到的模型参数。极大似然估计和马尔科夫链蒙特卡洛抽样是两种常见的参数估计方法。根据解析形式的似然函数是否可以得到,研究者可以在两者之间进行选择。AIC信息准则即Akaikeinformation criterion,是衡量统计模型拟合优良性的一种标准  最后,利用已经估计的参数和相关模型,客户未来的交易行为可以被预测,比如预测客户未来一段时间里的期望交易频率,从而得到企业在未来一段时间里的期望销售数量。如果模型允许,研究者还可以得到许多管理学上的启示,例如客户购买是否具有周期性。  过去已有许多研究者利用统计建模的方法来分析客户行为。这些研究按照其目的可以被大致分为三个方面:预测客户流失,预测客户购买频率和预测客户购买数量。本文主要针对前两个方面。  BG/NBD模型是预测客户购买频率的一个重要模型,也是基准模型。该模型是在Pareto/NBD模型的基础上发展而来。Pareto/NBD模型由Schmittlein et al.(1987)建立的,在该模型中,客户购买频率被假设为negative binomial distribution,即gamma混合的Poisson分布;而客户生命周期则被假设为Pareto分布,即gamma混合的exponential分布。Pareto/NBD模型的最大缺点在于它不易于被企业采用,因为参数估计的过程涉及到对hypergeometric函数的重复计算,使得模型的应用变得复杂。针对这个缺点,(Fader et al.,2005)建立了BG/NBD模型。在该模型中,客户被假设为只在每次购买结束后做出是否离开该市场的决策,从而客户流失过程服从geometric分布,而非Pareto/NBD中的exponential分布。该geometric分布的参数被假设为在客户群中服从beta分布,从而客户流失过程被描述为一个beta-geometric(BG)过程。BG/NBD模型可以用简单的办公软件,比如Micro Excel,来实现,因而在工业界和学术界中有着广泛的应用。  除了以上两个模型,针对客户行为的不同特点,研究者们还建立其他许多类型的统计学模型。本文则考虑到过往研究里一直被忽略的两个问题,客户购买的星期效应,以及客户的异质性。  客户购买行为的星期效应是指客户两次购买的时间间隔倾向于以星期为单位。为了更好的说明这一点,作者选取了一个记录名为“Kiwibubble”的产品推广销量的数据。在一年的时间里,267名客户一共购买了745次,制造了514个购买时间间隔。图3为这514个购买间隔的直方图。  从该图中可以看出,购买时间间隔为7,14,…,的频率要明显高于其周围的值,这说明了客户在上一次购买后,有更大的概率在7的整数倍天进行下一次的购买。该图也显示了客户行为具有以星期为单位的周期性。在每一个[7i-3,7i+3],i=1,2,…,的周期里,客户数量随着购买时间间隔接近7i而上升,随着其远离7i而下降。  形成这种星期效应的一个可能的原因是人们只在周末才有时间去超级市场采购物品。现如今,工作时日通常以星期为单位,这也就不奇怪观测到客户以星期的整数倍为间隔来进行购买。星期效应也有产生于企业的周期性商业行为。比如,采购员可能以星期为单位检测公司的库存情况,从而决定是否买进更多的原材料。  过去的研究都是直接对购买时间进行建模,采用的分布通常为exponential分布, Weibull分布和generalized gamma分布等。在本文中,为了模拟星期效应,作者将购买时间间隔分为两个部分,即周部分和日部分。客户在t天以后的购买,则被描述为客户在距离上次购买的w周d天后进行下一次交易。其中,  t=7*w+d,w=0,1,2,…  注意到,当w>0时,d的取值范围为[-3,3]的整数,当w=0时,d只可以取1,2,3三个值。通过该公式,一个客户在t天以后购买的概率就是购买时间包含了w周的概率乘以购买时间在w周第d天的概率。  P(t)=P(w)P(d丨w)  由于周部分的定义域为非负整数,所以在本文中作者采用了Poisson分布和negative binomial分布来模拟周分布。对于Poisson分布,作者假设其参数服从gamma分布。因而对于一个随机选取的客户,其周部分服从negative binomial分布(NBD)。  Negative binomial分布可以被看作是Poisson分布的一个延伸,经常被研究者用来描述相对分散的非负整数的分布。Negative binomial分布含有两个参数,一个是允许的实验失败次数r,一个是每次实验成功的概率θ。为了描述客户的异质性,作者假设θ服从beta分布。从而对于一个随机选取的客户,其周分布服从beta-negative binomial(B-NBD)分布。  对于日部分,本文采用了多元logistic回归来模拟d=-3,-2,…,2,3的概率。  对于客户流失过程,作者采用了与BG/NBD模型相同的设定。即,客户在每次购买结束后决定是否还继续购买,如果不继续,则永久离开该市场。客户流失的概率假设为p,其异质性通过beta分布来实现。从而,对于一个随机选取的客户,其生命周期服从beta-geometric(BG)分布。  综上所述,作者针对星期效应建立了两个模型,一个是BG/NBD-logit模型,一个是BG/B-NBD-logit模型。极大似然估计被用来估计模型参数,蒙特卡洛模拟则被用来预测客户未来的购买行为。  用来实验的数据记录了一个名为“Kiwibubble”的新饮料的销售。这个观察期为1年,在此期间内267名顾客,一共进行了745次购买。为了证明模型的有效性。作者将这个观察期平分为拟合期和预测期。建模的目的就是用前26周的购买数据来预测未来26周的客户的购买行为。  BG/NBD-logit模型的AIC信息准则和BIC信息准则分别求得为3246.9和3289.9,而BG/B-NBD-logit模型的分别为3120.1和3166.8。这说明了后一种模型提供了比前一种更好的拟合性。为了进一步说明模型的拟合性质,作者描绘了这267名客户在拟合期的期望累计购买数量和期望每周购买数量(图4和图5),并与真实情况进行了比较。如图所示,和BG/NBD模型比起,作者提供的两种模型都具有更好的拟合性。表1和表2是与图4和图5相关的平均绝对百分误差,可以看出,新模型的在跟踪前26周累积销量方面具有更小的误差。  表1.“Kiwibubble”数据拟合期累计销量预测的平均绝对百分误差┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓┃平均绝对百分误差(%)┃┣━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━━┫┃ BG/NBD模型┃ BG/NBD-logit模型┃ BG/B-NBD-logit模型┃┣━━━━━━━━╋━━━━━━━━━━━╋━━━━━━━━━━━━┫┃10.15┃3.12┃2.84┃┗━━━━━━━━┻━━━━━━━━━━━┻━━━━━━━━━━━━┛  表2.“Kiwibubble”数据拟合期每周销量预测的平均绝对百分误差┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓┃平均绝对百分误差(%)┃┣━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━━┫┃ BG/NBD模型┃ BG/NBD-logit模型┃ BG/B-NBD-logit模型┃┣━━━━━━━━╋━━━━━━━━━━━━╋━━━━━━━━━━━━┫┃34.04┃35.59┃29.88┃┗━━━━━━━━┻━━━━━━━━━━━━┻━━━━━━━━━━━━┛  客户分析最主要的任务是对现有客户未来的表现进行预测。为了说明新模型如何提高预测精度,根据客户在拟合期的表现,作者计算了客户在预测期的期望购买数量,并与真实情况进行了比较。如图6和图7所示,所有模型的准确度都有下降,然而新模型精度的降低小于基准模型。表3和表4的平均绝对百分误差进一步说明了在考虑了星期效应的情况下,客户行为能够被更加有效的描述。  表3.“Kiwibubble”数据预测期累计销量预测的平均绝对百分误差┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓┃平均绝对百分误差(%)┃┣━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━━┫┃ BG/NBD模型┃ BG/NBD-logit模型┃ BG/B-NBD-logit模型┃┣━━━━━━━━╋━━━━━━━━━━━╋━━━━━━━━━━━━┫┃10.06┃8.80┃8.32┃┗━━━━━━━━┻━━━━━━━━━━━┻━━━━━━━━━━━━┛  表4.“Kiwibubble”数据预测期每周销量预测的平均绝对百分误差┏━━━━━━━━━━━━┓┃平均绝对百分误差(%)┃┗━━━━━━━━━━━━┛┏━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━━┓┃ BG/NBD模型┃ BG/NBD-logit模型┃ BG/B-NBD-logit模型┃┣━━━━━━━━╋━━━━━━━━━━━╋━━━━━━━━━━━━┫┃93.21┃62.42┃67.83┃┗━━━━━━━━┻━━━━━━━━━━━┻━━━━━━━━━━━━┛  总体说来,在考虑了星期效应之后,新模型在数据拟合性和预测性方面都得到了提升。企业的商业决策也应该考虑到客户的这种周期性。  这篇文章研究的另一个问题有关于客户的异质性假设。因为客户与客户之间存在着年龄,收入,职业等的差异,因而他们在对同一产品的喜好和使用时不同的,这就导致了他们在购买行为呈现出异质性。可能有的客户购买频率很高,而有的客户只是偶尔才光顾该公司。这种异质性通常是通过假设模型参数在客户之间服从某种分布来把握。比如,在BG/NBD模型中,客户购买速率上的异质性就通过假设Poisson分布参数服从gamma分布来实现。过往的研究中出现过的异质性分布包括gamma分布,normal分布,log-normal分布,beta分布等等。  这些分布的一个重要特点就是他们在这个定义域上只存在一个局部最大值。从其概率密度函数图上来看,这体现为密度曲线只呈现一个高点。当研究者使用这些单峰分布的时候,就潜在地假定了大多数客户的购买行为将集中在曲线最高值附近。客户频率将向最高值两边逐渐减少。然而,在现实中,客户的组成要更为复杂,从而单峰异质性假设会失去其效用。为了说明这一点,作者进行了一个模拟试验。  在该试验中,客户行为的设定与BG/NBD模型基本一致,即,满足以下五个假设。  假设1:当客户依旧活跃时,客户的购买时间间隔服从exponential分布,参数为μ。  假设2:在每次购买结束后,客户有p的概率不再购买该产品。  假设3:参数μ服从混合gamma分布。  假设4:参数p服从beta分布。  假设5:参数μ和参数p相互独立。  可以看到,与BG/NBD设定不一样的地方在于假设3。这里作者让μ服从混合gamma分布而非单一的gamma分布,其实是假定了该客户群来自于两个群体,每个群体所占的比例即是混合分布中对应的权重值。  作者组织了两组共10个模拟试验,结果表明,当客户明显由两个群体组成时(两个群体所占的权重接近),原BG/NBD模型的精确度显著下降。而在本文中,为了解决这一问题,作者对BG/NBD模型进行了延伸。新模型维持了原模型大部分的形式,主要改变在于exponential分布的参数被假设为服从混合gamma分布。作者指出该延伸不仅保留了原模型易于应用和估计的特点,而且成功地考虑了客户的复杂组成。因为本文中作者只混合了两个gamma分布,因而称新模型为BG/NBD-2模型。对于混互模型,混合权重的确定十分关键。在本文中,作者让混合权重从0开始,按0.05的间隔,逐渐加大到0.5,从而生成11个模型。这11个模型将逐个被拟合到数据中,拥有最优AIC信息准则的那个模型将被采纳。  为了验证该模型的效用,作者采用了CDNOW数据。该数据记录了一个名为CDNOW的网站在一年半的时间里出售DVD的情况。该数据包含了23570名客户,这些客户在69660次交易中购买了超过163000张DVD。同Fader et al.(2005)一样,十分之一的客户被抽样出来组成新的样本。前39周被选为拟合期,剩下的另一半作为预测期。极大似然估计被用来估计BG/NBD和BG/NBD-2模型的参数。  模型的拟合表现通过两个数量值来体现。首先,作者计算了在拟合期间购买0,1,…,7+次的期望客户人数,并与实际情况进行比较。如图8所示,新模型在拟合方面表现更好,因为它所估计的人数与实际人数更为接近。此外,客户在拟合期的期望累积购买量也被计算出来。如图9所示,两个模型的表现一致。新模型在该统计量上的平均绝对百分误差为6.28%,与BG/NBD模型的6.37%十分接近。  为了验证模型的预测精度,作者计算了客户在预测期的条件累积购买数量,并与实际情况进行了对比。新模型在此项上的平均绝对百分误差为7.09%,比BG/NBD导致的11.88%的误差要小。这说明了新模型比原模型能更好地预测客户未来的购买行为。  新模型的优越性还通过另一个统计量得出。作者计算了在拟合期购买x(x=0,1,..,7+)次产品的客户在预测期的平均购买频率。其与真实情况的比较如图11所示。  综上所述,  (1)无论是BG/NBD模型,还是BG/NBD-2模型,都提供了很好的拟合性。  (2)对于两个模型,其在模拟累积购买频率时,所产生的平均绝对百分误差在拟合期大于预测期,说明随着时间的推移,模型精度在下降。  (3)新模型精度在时间维度上的下降要小于BG/NBD模型。
其他文献
作为一类特殊的易逝品,生鲜农产品具有时鲜性和易腐性,产品质量随时间发生衰减,这些特性会极大影响配送总成本和顾客对产品的满意度。因此,基于生鲜农产品特性考虑,研究如何进行生
以往学者对供应链问题的研究,大多集中在供应链成员间信息均为对称的情形,然而在实际的生产、生活过程中,供应链中信息不对称的情况时有发生。作为企业生产运营不可或缺的环节,多
这篇稿件是斯诺的姐夫从美国堪萨斯城寄来的。《堪萨斯城明星报》已有百年以上历史,斯诺曾在这家报纸当过报童。斯诺的姐夫在该报任职多年,最后是以广告部主任的身份退休的。
美国著名广告人H·史戴平斯曾指出:“文稿是广告的核心。”由此可见广告文案在广告活动中的地位和作用。在广告的天地里,平淡无奇、按常规老套语言制作的广告很快就会被人遗
经济全球化的推进加速了国际贸易分工的形成,使得产品的生产过程被分解为不同的工序,并分布到不同的国家进行生产加工。不同的国家在国际分工中扮演着截然不同的角色,一个国家的
四川省南充报的《政策问答》专栏,近两年时间,共解答农民提出的具体政策问题200个左右。党的十一届三中全会以后,随着党对农村经济政策的放宽,群众有许多具体政策问题迫切要
无论做什么事,思想上要实事求是,方法手段上要恰如其分,不能搞过头。搞过头,同做得不够,没有做好,其结果是一样的。所谓“过犹不及”,就是这个道理。写文章选用词语也是如此
由于银行信贷介入的行业系统性风险导致商业银行信贷损失的风险称为行业信用风险,行业信用风险的管理是现代商业银行信用风险管理中的重要内容。较之企业信用风险,行业信用风险
利用二次同余式和二元二次方程解的结构及解序列的递归性质,通过同余和奇偶分析等方法得到了椭圆曲线y2=x3+7x±22全部整数点,这些整数点只能是(-2,0)和(2,0).
古人写诗作文,讲究炼字炼句,作警策之语,“立片言以居要”。可是不知什么缘故,不见提倡“炼题”。前人作诗常常“无题”,有的题是编书人后来加的。有了题目的,也多是交代人