知识发现及其在CRM中的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wudidewohaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:以机器学习为背景的知识发现技术是一门新兴的信息处理技术,而客户关系管理的经营理念是决定现代企业能否取得成功的关键因素,两者的结合则可以有效地提高企业的核心竞争力。本文较为详细地介绍了知识发现的概念、过程、方法及其在客户关系管理中的具体应用。
  关键词:知识发现;数据挖掘;CRM
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)12-21489-02
  
  Knowledge Discovery in Database and its Utilization in Customer Relationship Management
  
  CHEN Ze-zhi1,2, CHENG Jia-xing1
  (1.Anhui University, Hefei 230039, China; 2.Chaohu Vocational and Technical College, Chaohu 238000, China)
  Abstract:Knowledge discovery in database (KDD) based on machine learning is a promising new technology to process information. At the same time, customer relationship management(CRM) becomes a key factor in deciding the future of modern enterprises. As a result, the integration of KDD and CRM can improve the core-competitive power of enterprises. This paper introduces the conception, process, method of KDD and its utilization in CRM.
  Key words:knowledge discovery in database; data mining; CRM
  
  随着认识和管理水平的提高,人们对客观世界的描述愈来愈全面,相应地,存储的数据量也愈来愈多。数据库系统虽然提供了对这些数据的管理和一般处理,但简单的数据查询或统计只能满足某些低层次的需求,大量的数据并未得到充分利用,这种现象常被描述为“数据丰富,但信息贫乏”。人们需要从大量数据资源中挖掘出对数据高度概括和抽象的一般知识,来帮助自己做出正确的决策,然而数据的急剧增长及其时效性、复杂性远远超出了人们的手工处理能力,于是迫切需要高性能的数据分析工具来高速、全面、深入、有效地处理数据。机器学习能够通过对数据及其关系的分析,提取出隐含在海量数据中的知识。知识发现(knowledge discovery in database,KDD)技术正是在此背景下为满足上述要求而产生的。
  1 知识发现概述
  
  1.1 知识发现的定义和过程
  
  知识发现一词是在1989年8月于美国底特律市召开的第十一届国际人工智能联合会议的专题讨论会上正式提出来的。从1995年开始,每年举办一次KDD国际学术会议,将知识发现和数据挖掘(data mining,DM)方面的研究推向了高潮。对于知识发现的定义,目前得到普遍认可的是由Fayyad提出的:知识发现是从大量数据集中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程[1]。许多人将知识发现和数据挖掘视为等价的概念[2]。人工智能领域习惯称之为知识发现,而数据库领域习惯称之为数据挖掘,也有人把KDD看作发现知识的完整过程,而数据挖掘只是这个过程中的一个部分。但我们倾向于认为数据挖掘继承了知识发现领域的成果,充分利用了机器学习、人工智能、模糊计算、粗糙集和神经网络的理论与方法,重点在于设计高效的算法以达到从大量数据中发现知识的目的。
  由费亚德(Fayyad)于1996年提出的数据库中知识发现的过程如图1所示,它由下列五个步骤组成。
  
  图1 KDD过程
  上述KDD全过程的几个步骤可以进一步归纳为三个步骤:数据挖掘预处理、数据挖掘和数据挖掘后处理。
  数据挖掘预处理是数据挖掘前的准备工作,主要包含数据选择、数据预处理及数据变换三个过程。数据选择是根据用户需要从数据库中提取与KDD相关的数据;数据预处理就是要对选择的数据进行再加工;数据变换即从发掘数据库里选择数据。
  数据挖掘就是根据用户要求,确定KDD的目标是发现何种类型的知识,因为不同要求会在具体的知识发现过程中采用不同的知识发现算法。
  数据挖掘后处理是数据挖掘后的处理工作,主要内容是进行知识评价。这一过程用于对所获得的规则进行价值评定,以决定所得到的规则是否存入基础知识库。
  1.2 知识发现的主要方法
  知識发现是多门学科的综合,所以它的方法也来自各个相关学科,常用方法主要有:
  1.2.1 决策树方法
  决策树方法,即利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层结点和分支,直到完成数据库中数据的分类。决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。决策树的主要优点是描述简单,分类速度快,精度较高,结果容易理解,特别适合大规模的数据处理,尤其是非数据值型数据。
  1.2.2 神经网络方法
  神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合于解决知识发现问题, 因此近年来受到人们的广泛关注。神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。从结构上看,可以把一个神经网络划分为输入层、中间层和输出层。其中,中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。神经网络很适合处理非线性数据和含噪声数据,并且能够精确地对复杂问题进行预测。故神经网络是预测、信用评分、响应模型评分和信用分析等商业应用的有力工具[4]。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。
  1.2.3 统计方法
  统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。最初总是从其数量表现上通过统计分析看出一些线索,然后提出一定的假说,作进一步深入的理论研究。当理论研究提出一定结论时,往往还需要在实践中加以验证。也就是说,观测一些自然现象或专门实验所得资料,是否与理论相符、在多大程度上相符、可能是朝哪个方向偏离等问题,都需要用统计方法加以处理。与统计学有关的知识发现方法主要有四种:传统方法、模糊集、支持向量机和粗糙集。
  1.2.4粗糙集方法。粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗糙集的知识发现打下了坚实的基础。粗粗集方法的优点是:不需要给出额外信息; 简化输入信息的表达空间;算法简单、易于操作。但粗糙集的数学基础是集合论,难以直接处理连续的属性,而现实信息表中连续属性是普遍存在的,因此连续属性的离散化是制约粗糙集理论应用的难点[5]。   
  1.2.5 遗传算法
  遗传算法是模仿生物遗传学和自然选择机理,通过人工方法构造的一类优化搜索算法,是对生物进化过程进行的一种数学仿真。它按照一定的规则生成经过基因编码的初始群体,然后从这些代表问题的可能潜在解的初始群体出发,挑选适应度强的个体进行交叉和变异,以期发现适应度更佳的个体,将其经过解码,该最佳个体编码则为对应问题的最优或近似最优解。遗传算法可以起到产生优良后代的作用。
  1.2.6 可视化方法
  可视化就是把数据、信息和知识转化为可视的表示形式的过程。使用有效的可视化界面,可以快速、高效地与大量数据打交道,以发现其中隐藏的特征、关系、模式和趋势等。可视化技术已成为众多商业和技术领域的基本工具。
  
  2 CRM及其与知识发现的关系
  
  2.1 CRM概述
  随着生产力的发展,人类社会生产逐渐由卖方市场向买方市场转变,相应的企业管理理念也逐渐从以产品为中心向以市场为中心,再向目前的以客户为中心转变。客户成为企业的重要战略资源,企业能否获得、保持并发展自己的客户,已成为企业能否取得成功的关键因素,由此便产生了以客户为中心的管理理念。企业开始注重通过搜集整理完整的客户信息、分析和把握客户需求、提供便捷的购买渠道和售后服务、保持经常性的客户关系等措施,来加强对客户关系的管理。客户关系管理(Customer Relationship Management,CRM)的提出,其目的在于建立一个系统,使企业在客户服务、市场竞争、销售及支持方面形成一个彼此协调的全新的关系实体,为企业带来长久的竞争优势。由此,CRM作为一种改善企业与客户之间关系的新型管理模式,主要通过将企业的内部资源进行有效的整合,对企业涉及到客户的各个领域进行全面的集成管理,使企业以更低的成本和更高的效率最大化地满足客户需求,并最大限度地提高企业整体经营经济效益。基于对客户的尊重,CRM理念要求企业完整地认识整个客户生命期,使企业为客户提供更具个性化、更高效的服务,以提高客户的满意度和忠诚度,从而提高企业竞争力。总之,客户关系管理思想是一套全新的管理理念,强调把客户作为企业自身经营的核心,全心全意为客户服务,围绕着客户来开展各种业务和服务。
  2.2 CRM与KDD的关系
  CRM是一种管理技术,KDD和DM是一种数据处理和分析技术,是CRM的运用工具,为其提供数据基础平台和技术支持。CRM利用数据挖掘、数据仓库、定制营销以及其他信息技术,发现数据中存在的关系和规则,预测相关指标的未来发展趋势,为企业的营销决策、产品销售以及客户服务等方面提供有效的技术支撑;科学确定各种业务自动化的解决方案,为企业提供全方位的管理视角,赋予企业更完善的客户交流能力,最大化客户和企业的收益率[5]。
  
  3 知识发现技术在CRM中的挖掘过程
  
  在CRM中,知识发现可分为七个有序的步骤,如图2所示:
  
  图2 KDD技术在CRM中的挖掘过程
  3.1 界定商业目标
  在CRM中实施数据挖掘并真正发挥作用,必须依据CRM的功能做需求分析,理解数据与实际业务问题联系,界定正确的商业目标。
  3.2 数据搜集
  要进行知识发现,必须依据定义的商业目标搜集所有与业务对象有关的数据,因为大量丰富而全面的数据是知识发现的基础。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。对所搜集到的数据建立数据库与数据表,为知识发现做好准备。
  3.3 数据预处理
  数据预处理主要对搜集到的数据进行再加工,检查数据的完整性和一致性,并对其中的噪音数据进行处理,因此数据预处理对于提高数据挖掘效率是必要的。数据预处理技术很多,像数据集成将数据由多个数据源合并成一致的数据存储,如数据仓库或数据立方体;数据变换主要利用聚类分析和判别分析,改进涉及距离问题的发现算法的精度和有效性;数据归约可以通过聚集、删除冗余特性等来压缩数据。在数据挖掘之前应用这些数据预处理技术,可以大大提高知识发现模型的质量,减少实际工作时间。
  3.4 建立模型
  根据定义的商业问题以及数据的类型决定采用的模式,同时要根据数据的属性(连续或离散)考虑采用相应的算法,自动建立数据挖掘模型。
  3.5 评价、验证模型
  模型的验证是数据挖掘成败的关键。验证的方法是输人一些历史数据,运用该模式比较数据挖掘的结果与已知历史结果的差异,如果差异很大,就要考虑改进模型或重新建立模型。
  3.6 知识发现
  在数据抽取形成表上,运用一定算法进行数据挖掘。通常在数据挖掘过程中,用户会对被抽取出来的数据进行分组,然后运用模型进行数据挖掘。对于挖掘的结果应用两个指标进行评估,一个是支持度,用來验证结果的实用性;一个是可信度,用来验证结果的准确性。
  3.7 分析决策
  知识发现的最终目的是辅助决策者做出决策,决策者可以根据知识发现的结果,结合实际情况,调整竞争策略。
  上述步骤往往不是一次能够完成的,可能其中某些步骤或全部过程需要反复进行。
  
  4 知识发现在CRM中的具体应用
  
  4.1 客户群体细分
  企业在长期的经营中积累了大量的数据信息,企业必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户信息。CRM系统通过先进的知识发现技术,将最佳的商业实践与数据挖掘、数据仓库、一对一营销以及其它信息技术紧密结合在一起,分析现有客户和潜在客户的相关需求、消费模式、发展机会、运行风险和成本,及时准确地制定应对措施,并细分客户,从而针对不同层次客户制定个性化的服务策略,为企业提供了一个自动化的业务解决方案,使企业顺利实现由传统企业模式到以电子商务为基础的现代企业模式的转化。
  4.2 客户群体聚类分析
  聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能的大,不同类别数据间的相似性尽可能的小。运用聚类分析的方法来分析客户资料,发现客户的群体行为,将具有不同需求的客户群组合成一个新的更大的客户群。经过聚类分析,可以发现他们的共性,掌握他们的投资理念,提供针对性的服务,进而引导他们的投资行为,提高企业的综合服务水平,并可以降低业务服务成本,取得更高的收益[6]。
  4.3 实施交叉销售
  所谓交叉销售,就是向企业的客户推销附加服务,使一个客户同时选择几个不同的产品和服务,引导现有客户选择更高利润率的产品。现代企业和客户之间的关系是经常变动的,同时由于获得新客户要花费高额的成本,因而在当前已有的客户中运用KDD技术对其进行交叉销售,为客户提供新的产品或服务就显得更有意义。交叉销售的目的就是试图用最低的成本使同一个客户同时拥有企业更多的产品和服务。研究表明,这样做不仅可以增加企业的利润更重要的是可以增加客户的忠诚度[7]。
  4.4 客户满意度分析
  随着市场竞争的日趋激烈,各企业都在思考如何提供最合乎客户需求的产品和服务,如何与客户建立长久而持续的关系,以获得、保持客户,减少流失率,从而使企业获取长期的利益。KDD技术可以从零散的客户反馈信息中,分析出客户的满意度,帮助企业改进客户营销策略。   4.5 客户信用分析
  KDD技術运用于CRM中,可以为信用风险的控制提供一个客观、准确的评估和控制机制。以数据统计分析为基础的KDD技术,通过收集和分析客户的大量行为、信用和背景纪录,从大量历史数据中分析出具体客户的信用等级,使企业有效地建立信用风险控制体系[8]。另外,通过孤立点分析还可以发现客户的一些异常行为,有效防范风险。
  4.6 客户盈利能力分析和预测
  企业若不知道客户的价值,就很难做出适时的市场策略。KDD技术可以分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定适合的市场策略。
  
  5 结束语
  
  当前,CRM系统的开发和应用已经受到企业很大的关注,并将为企业带来以客户为中心的先进经营理念和不断提高的收益率。而KDD技术的迅速发展也为CRM的实施提供良好的基础平台和技术支撑,该项技术的运用将会增强企业的开发、创新和营销能力,推动企业的整体信息化建设。以往单纯重视产品的价格或质量的方式,已经不再是顾客进行消费时考虑的惟一因素。企业所面临的首要课题就是如何充分利用CRM和KDD等现代科学技术,准确掌握顾客的消费偏好改变,适时与主动地提供顾客所需要的服务与信息,维持与掌握顾客的满意度,并有效利用数据分析结果做出决策,真正提高企业的服务水平和盈利能力,进而提升企业的核心竞争力,保证企业持续、快速和健康地发展。
  
  参考文献:
  [1]Fayyad U M et al.The KDD process for extracting useful knowledge from volumes of data[J].Communications of the SCM,1996,39(1).
  [2]Fayyad U M,Piatesky G,Smyth P,et al.eds.Advances in Knowledge Discovery and Data Mining.Cambridge,MA: AAAI/MIT Press,1996.
  [3]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004.
  [4]王乃静,单良.数据挖掘及其在商业中的应用[M].山东经济,2006,(6).
  [5]王瑞敏,吕锋华.数据挖掘技术探究[J].金华职业技术学院学报,2006,(2).
  [6]李蕾.数据挖掘技术在客户关系管理中的运用[J].企业活力,2006,(3):32-33.
  [7]黄华卿,张维,熊熊.数据挖掘技术在商业银行客户关系管理中的应用分析[J].哈尔滨商业大学学报(社会科学版),2006(3).
  [8]贝里,利诺夫.数据挖掘:客户关系管理的科学与艺术[M].北京:中国财政经济出版社,2003.
  [9]道焰,代玉龙.基于数据挖掘的银行信用卡客户关系管理系统[J].科技论坛,2005(3).
  “本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
摘要:基于VHDL的电路系统设计具有设计技术齐全、方法灵活、支持广泛等优点。通过数据选择器的设计实例详细介绍了用VHDL设计电路系统的流程和方法,仿真结果表明满足设计要求,降低了设计难度,提高了工作效率。  关键词:VHDL;电路系统;数据选择器  中图分类号:TN79文献标识码:A文章编号:1009-3044(2007)12-21658-01    The Design of Circuit S
期刊
摘要:IPv6提供了对于移动性的支持,移动通信中的实时应用如IP电话、视频会议等对于服务质量提出了要求。介绍了移动IPv6 的基本原理与RSVP的工作特点,讨论了RSVP在移动环境中应用出现的问题,分析了几种解决方案的优点和不足。  关键词:移动IP;服务质量;资源预留协议  中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)12-21554-02    The Qos
期刊
摘要:阐述了层次分析法的基本思想、方法和步骤,给出AHP的特征根计算方法,编写了C语言算法,并且算法通过了数据测试。  关键词:层次分析法;判断矩阵;一致性校验;C算法  中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)12-21654-02    The C Algorithm on Consistent Rule Of Judgment Matrix in AHP 
期刊
摘要:本文分析了BitTorrent协议规范,根据torrent文件格式和Bencoding编码规则,在C#.Net2005环境下实现了对torrent文件的解析。根据分析结果,给出了一种下载程序的实现。  关键词:下载程序;BitTorrent协议;torrent;B-encoding  中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)12-21661-02    D
期刊
摘要:数据查询是数据库的常规操作之一,数据查询中最有灵活性的是动态查询。本文详细介绍了在Delphi中实现数据查询的各种方法,特别强调动态查询的实现方法,对于每一种方法均给出了实现代码。   关键词:数据库;Delphi;ADO;查询   中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)12-21481-02      The Methods of Data Query
期刊
摘要:随着计算机技术和电子技术的日益发展,衍生出了有别与以往的单纯的计算机软硬件和电子技术的嵌入式系统。嵌入式系统已经应用到人们生活,工作,学习的方方面面。本文主要讨论的是目前主流的嵌入式微处理器ARM,并以S3C44B0X和μCOS-II搭建平台,阐述嵌入式系统开发平台的架构、系统工作原理及应用程序开发流程。  关键词:嵌入式系统;ARM;S3C44B0X;μCOS-II  中图分类号:TP31
期刊
摘要:当前,局域网内使用ARP欺骗的木马程序盗取用户帐号和密码,影响用户正常上网,甚至会造成交换机负载过大,网络缓慢,数据丢包和网络瘫痪。采用双向绑定和DAI技术可以有效解决问题。  关键词:ARP攻击;MAC;DAI  中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)12-21586-02    ARP Attack and Protection on LAN    
期刊
摘要:JBPM工作流引擎和JBOSS 的服务器结合为开发企业级 (PDM)数据流引擎提供了更好的工具。jBPM采用了它自己定义的JBoss jBPM Process definition language (jPdl),将一个财务操作流程看作是一个UML状态图。jPdl详细定义了这个状态图的每个部分,如财务动作的发起、不同操作间的的转换,财务操作审批等。然后当jBpm运行时,使用简单强大的语言将在
期刊
摘要:文章介绍了基于东芯SEP3203主处理器的微型针式打印模块SAMSUNG SMP150一种新型设计方法。重点阐述了打印针头驱动电路和黑表检测电路 ,并在此硬件设计基础介绍了上用ARM7驱动的SAMSUNG SMP150打印时序和纸张定位软件方法。  关键词:微型针式打印头;东芯SEP3203;定位;驱动电路  中图分类号:TP368文献标识码:A 文章编号:1009-3044(2007)12
期刊
摘要:本文介绍了中间件Tuxedo的特点,并结合电信查询子系统具体设计和实现,采用B/S与 C/S三层体系结构相结合的方案,详细阐述了Tuxedo中间件在大型数据库应用系统中的开发原理和实例应用,体现了Tuxedo中间件的作用和优势。  关键词:中间件;Tuxedo;三层体系结构;查询子系统  中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)12-21613-02   
期刊