论文部分内容阅读
【摘要】计算机和网络技术的发展使企业获取商业数据变得更加便捷。如何从海量的数据中提取有效信息并进行分析,进而做出快速准确的决策已成为企业面临的一个课题。本文通过对数据挖掘工具及常用方法的分析,介绍了该技术在企业客户关系管理领域中的一些应用。
【关键词】CRM 数据挖掘 OLAP
一、基于数据仓库的数据挖掘
数据挖掘就是从大量的、不完全的、模糊或者随机的数据中,提取有用的信息和知识的过程。DM是面向应用的,它是对相关数据进行统计、分析、综合和推理,以指导实际问题的求解。DM试图发现事件间的相互关联,利用已有的数据对未来的活动进行预测。通过数据挖掘技术,从海量的数据库中发掘出不同的信息与知识,将有利于企业的辅助决策支持。DM正日益成为企业智慧的一个组成部份。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。数据仓库DW(Data Warehouse)的任务就是搜集来自其它系统的有用数据,并存放在一个经过处理整合的大容量关系数据库中,供决策支持或数据分析使用。DW通过在线分析处理OLAP(Online Analytical Process)工具来验证用户的假设。DM和OLAP的主要差异在于前者用于产生假设,而后者则用于查证假设。例如,市场分析师在为超市规划货品架柜时,可能会先假设两种产品可以摆放一起,接着便可利用OLAP的工具去验证此假设是否成立;但DM并不需要假设,而是通过挖掘技术找出存在于数据中的潜在规则,于是可能得到意外的摆放结果。DM对于基础数据量的需求是巨大的,DW可以很好地满足这个要求。
二、数据挖掘技术在GRM中的应用
目前DM正广泛应用在CRM中。完整的CRM运作机制必须建立在相关的硬软件系统能健全的基础上,通过DM分别针对目标策略、产品服务定位、操作效能与测量评估等方面的问题,高效地从市场与顾客所搜集累积的大量资料中挖掘出消费者的关键信息,以此建立真正由客户需求出发的客户关系管理。数据挖掘适用于企业决策分析和管理的各个不同领域和阶段,其中包括:
1、客户群体分类分析。近年来,一对一营销正在被众多的企业所青睐。一对一营销是指了解每一个客户并建立持久的关系。通过数据挖掘中的客户分类功能,可以把大量的客户分成不同的类,在每一个类中客户具有相似的属性,从而找出客户的一些共同的特征。在此基础上进行预测,找出哪些人可能成为未来的客户。
2、交叉销售。交叉销售是建立在双赢原则上的。通过对现有的客户进行交叉销售,为原有客户提供新的产品或服务。对客户来讲,要得到更多更好的服务且从中受益。对企业来讲,也会因销售额的增长而获利。数据挖掘可以帮助企业分析出最优的合理的销售匹配。如通过对购物篮的分析,企业可以了解客户的产品消费模式,找出哪些产品客户最容易一起购买,或是预测客户在购买某一样产品之后,在多久之内会买另一样产品等等。利用DM可以更有效的决定产品组合、进货量或库存量以及对促销活动的成效评估等。
3、新客户的获得和老客户的保留。由于发掘出一个新客户的成本要比留住一个原有客户的成本要高出许多。因此企业必须设法提高客户的忠诚度。特别是从企业原有客户后来转向竞争对手的客户群中,分析其特征,再根据分析结果到现有客户资料中找出可能转向的客户,然后设计一些方法预防客户流失。比较系统的做法是借助于神经网络模型,根据客户的消费行为与交易记录对客户忠诚度进行排序,以此划分流失率的等级,进而配合不同的策略。
三、CRM中的数据挖掘方法
从上述分析中可看到,CRM中所涉及的数据挖掘方法有多种,比较典型的有关联分析、序列模式分析、分类分析、聚类分析等,每种方法都有各自的适用性。
1、关联分析。利用关联规则进行数据挖掘。在DM研究领域,对关联分析的研究开展得比较深入,出现了许多关联规则的挖掘算法。关联分析是为了挖掘隐藏在数据间的相互关系,它能发现数据库中形如“80%的客户在一次购买活动中购买商品A的同时购买商品B”之类的知识。
2、序列模式分析。与关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系,它能发现数据库中形如“在某一段时间内顾客购买商品A,接着购买商品B,然后购买商品C的序列频度”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。
3、分类分析。通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此规则对其他数据库中的记录进行分类。如信用卡公司的数据库中保存着持卡人的记录,公司根据信用程度将持卡人分类后,利用分类分析对每个信用等级做出准确描述或挖掘分类规则,然后依据该规则对其他相同属性的数据库记录进行分类。分类分析的几种典型模型包括线性回归模型、决策树模型、神经网络模型等。
(1)线性回归模型。回归预测是根据历史记录分析得出总体趋势,并将这种趋势用方程表示。根据变量的幂次,可将方程分为直线线性回归和曲线线性回归。最简单的一元线性回归预测模型为Y=a+bX。通过不断输入历史数据X和Y值,反复校准验证,直到求解出误差率最小的参数a和b的值。实际的预测模型可能是多元多次的,其数学模型为Y=a+blX1+b2X2+b3X3+…+bnXn。可借助于计算机对相关参数进行求解。
(2)决策树模型。决策树是一种树型的“二分法”数据分析和预测方法,主要用于对数据进行归类分割和预测。决策树的目的是对一个数据样本进行最大限度的分割。在进行决策树分析时,要明确分析的目的,并提供尽量多而且准确的学习样本。在预测方面,企业可以根据需要生成多棵树,经学习后成为企业特有的有效预测模型。
4、聚类分析。与分类分析不同,聚类分析是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。聚类分析与分类分析是个互逆过程。在最初分析中,可根据以往经验将要分类的数据进行标定,划分类别,然后用分类分析方法挖掘出每个类别的分类规则,用此规则重新对集合进行划分。由于聚类倾向于定性分析,在很多场合下,聚类结果作为其他技术的基础,在此之上采用决策树和神经网络方法,进一步对特定类进行分析,可以达到消除数据噪音,提高可靠性的效果。
四、结论
DM技术的重点不是数据库本身,而在于以企业各自的行业应用。现代的企业体经常搜集到大量的各类资料,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。妥善的运用DM技术,从巨量的数据库中发掘出不同的信息与知识作为决策支持之用,必能产生企业的竞争优势。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
【关键词】CRM 数据挖掘 OLAP
一、基于数据仓库的数据挖掘
数据挖掘就是从大量的、不完全的、模糊或者随机的数据中,提取有用的信息和知识的过程。DM是面向应用的,它是对相关数据进行统计、分析、综合和推理,以指导实际问题的求解。DM试图发现事件间的相互关联,利用已有的数据对未来的活动进行预测。通过数据挖掘技术,从海量的数据库中发掘出不同的信息与知识,将有利于企业的辅助决策支持。DM正日益成为企业智慧的一个组成部份。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。数据仓库DW(Data Warehouse)的任务就是搜集来自其它系统的有用数据,并存放在一个经过处理整合的大容量关系数据库中,供决策支持或数据分析使用。DW通过在线分析处理OLAP(Online Analytical Process)工具来验证用户的假设。DM和OLAP的主要差异在于前者用于产生假设,而后者则用于查证假设。例如,市场分析师在为超市规划货品架柜时,可能会先假设两种产品可以摆放一起,接着便可利用OLAP的工具去验证此假设是否成立;但DM并不需要假设,而是通过挖掘技术找出存在于数据中的潜在规则,于是可能得到意外的摆放结果。DM对于基础数据量的需求是巨大的,DW可以很好地满足这个要求。
二、数据挖掘技术在GRM中的应用
目前DM正广泛应用在CRM中。完整的CRM运作机制必须建立在相关的硬软件系统能健全的基础上,通过DM分别针对目标策略、产品服务定位、操作效能与测量评估等方面的问题,高效地从市场与顾客所搜集累积的大量资料中挖掘出消费者的关键信息,以此建立真正由客户需求出发的客户关系管理。数据挖掘适用于企业决策分析和管理的各个不同领域和阶段,其中包括:
1、客户群体分类分析。近年来,一对一营销正在被众多的企业所青睐。一对一营销是指了解每一个客户并建立持久的关系。通过数据挖掘中的客户分类功能,可以把大量的客户分成不同的类,在每一个类中客户具有相似的属性,从而找出客户的一些共同的特征。在此基础上进行预测,找出哪些人可能成为未来的客户。
2、交叉销售。交叉销售是建立在双赢原则上的。通过对现有的客户进行交叉销售,为原有客户提供新的产品或服务。对客户来讲,要得到更多更好的服务且从中受益。对企业来讲,也会因销售额的增长而获利。数据挖掘可以帮助企业分析出最优的合理的销售匹配。如通过对购物篮的分析,企业可以了解客户的产品消费模式,找出哪些产品客户最容易一起购买,或是预测客户在购买某一样产品之后,在多久之内会买另一样产品等等。利用DM可以更有效的决定产品组合、进货量或库存量以及对促销活动的成效评估等。
3、新客户的获得和老客户的保留。由于发掘出一个新客户的成本要比留住一个原有客户的成本要高出许多。因此企业必须设法提高客户的忠诚度。特别是从企业原有客户后来转向竞争对手的客户群中,分析其特征,再根据分析结果到现有客户资料中找出可能转向的客户,然后设计一些方法预防客户流失。比较系统的做法是借助于神经网络模型,根据客户的消费行为与交易记录对客户忠诚度进行排序,以此划分流失率的等级,进而配合不同的策略。
三、CRM中的数据挖掘方法
从上述分析中可看到,CRM中所涉及的数据挖掘方法有多种,比较典型的有关联分析、序列模式分析、分类分析、聚类分析等,每种方法都有各自的适用性。
1、关联分析。利用关联规则进行数据挖掘。在DM研究领域,对关联分析的研究开展得比较深入,出现了许多关联规则的挖掘算法。关联分析是为了挖掘隐藏在数据间的相互关系,它能发现数据库中形如“80%的客户在一次购买活动中购买商品A的同时购买商品B”之类的知识。
2、序列模式分析。与关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系,它能发现数据库中形如“在某一段时间内顾客购买商品A,接着购买商品B,然后购买商品C的序列频度”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。
3、分类分析。通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此规则对其他数据库中的记录进行分类。如信用卡公司的数据库中保存着持卡人的记录,公司根据信用程度将持卡人分类后,利用分类分析对每个信用等级做出准确描述或挖掘分类规则,然后依据该规则对其他相同属性的数据库记录进行分类。分类分析的几种典型模型包括线性回归模型、决策树模型、神经网络模型等。
(1)线性回归模型。回归预测是根据历史记录分析得出总体趋势,并将这种趋势用方程表示。根据变量的幂次,可将方程分为直线线性回归和曲线线性回归。最简单的一元线性回归预测模型为Y=a+bX。通过不断输入历史数据X和Y值,反复校准验证,直到求解出误差率最小的参数a和b的值。实际的预测模型可能是多元多次的,其数学模型为Y=a+blX1+b2X2+b3X3+…+bnXn。可借助于计算机对相关参数进行求解。
(2)决策树模型。决策树是一种树型的“二分法”数据分析和预测方法,主要用于对数据进行归类分割和预测。决策树的目的是对一个数据样本进行最大限度的分割。在进行决策树分析时,要明确分析的目的,并提供尽量多而且准确的学习样本。在预测方面,企业可以根据需要生成多棵树,经学习后成为企业特有的有效预测模型。
4、聚类分析。与分类分析不同,聚类分析是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。聚类分析与分类分析是个互逆过程。在最初分析中,可根据以往经验将要分类的数据进行标定,划分类别,然后用分类分析方法挖掘出每个类别的分类规则,用此规则重新对集合进行划分。由于聚类倾向于定性分析,在很多场合下,聚类结果作为其他技术的基础,在此之上采用决策树和神经网络方法,进一步对特定类进行分析,可以达到消除数据噪音,提高可靠性的效果。
四、结论
DM技术的重点不是数据库本身,而在于以企业各自的行业应用。现代的企业体经常搜集到大量的各类资料,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。妥善的运用DM技术,从巨量的数据库中发掘出不同的信息与知识作为决策支持之用,必能产生企业的竞争优势。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。