论文部分内容阅读
【摘要】在信息爆炸的电子商务时代,利用Web数据挖掘可以迅速从海量数据中获取有利于商业运作和提高竞争力的信息。文章在介绍Web数据挖掘概念和常用技术的基础上,阐述了其在零售业电子商务领域的应用。
【关键词】电子商务 Web数据挖掘 零售业 关联 聚类 分类
Web数据挖掘是数据挖掘技术在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学等多个领域,是一项综合技术。对于零售企业,通过Web数据挖掘,不仅为企业做出正确的商业决策提供强有力的工具,也为商家更加深入地了解客户需求信息和购物行为特征提供了可能性,从而开展有针对性的电子商务。
一、Web数据挖掘
Web数据挖掘是针对包括Web页面内容、站点拓扑结构、用户访问信息、用户注册信息及电子商务交易信息等在内的各种Web数据,在一定基础上应用数据挖掘方法以发现有用的隐含知识的过程。Web挖掘可分为三类:Web内容挖掘(Web Content Mining)、Web使用挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。
Web内容挖掘。Web内容挖掘是指从Web页面内容及其描述信息中获取有价值的知识或模式的过程,它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化的、半结构化的。Web内容挖掘可以完成概括某些特定文本内容、对文本集合进行分类或聚类,以及进行Web文档趋势预测等工作。多媒体信息挖掘的挖掘对象则是Web上的音频、视频数据和图像等。
Web使用挖掘。Web使用挖掘目的是从用户访问Web时在服务器上留下的访问记录中抽取感兴趣的知识。挖掘对象主要是服务器上的日志信息,包括服务器日志、代理服务器日志和客户端的Cookie等。通过分析关于用户访问和交互的信息,发现用户感兴趣的模式,更好地理解用户的行为,从而改进站点的结构,为用户提供个性化的服务。
Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识,Web结构包括不同网页之间的超链接结构和一个网页内部的树形结构,以及文档URL中的目录路径结构等。通过文档之间的超链接,可以挖掘出文档间关联关系所代表的信息,从而帮助发现用户相关主题的权威页面和进行页面等级划分;通过分析Web网页内部树形结构,可以发现与给定页面集合相关的其它页面。
二、使用的Web数据挖掘技术
首先,关联规则。关联规则主要关注事务内在关系。关联规则挖掘就是挖掘出用户在一个访问期间(session)从服务器上访问的页面/文件之间的关系,找出在某次服务器会话中最经常一起出现的相关页面。挖掘发现的关联规则往往是指支持度超过预设阀值的一组访问网页,这些网页之间可能并不存在直接的引用(Reference)关系。
关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对股票涨跌的分析。以市场货篮这个典型例子分析关联规则。“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶“(面包 黄油 牛奶)。用于规则发现的对象主要是事务型数据库,分析的是售货数据,也称货篮数据。以下给出的数学模型用来描述关联规则的发现问题:增长、STEM、AIS、DHP等算法分类发现-Y在事务集D上的支持度support(X∪Y)=s。可信度为c,如果c=support(X∪Y)*100/support(X),则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(strong rules)。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为,这对于改进零售业等商业活动的决策很有帮助。
其次,序列模式。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度c和最小支持度s。序列模式主要关注事务之间的关系。序列模式数据挖掘就是挖掘出交易集之间有时间序列关系的模式,在访问日志中发现所有满足用户规定的最小支持度s的大序列模式,寻找用户普遍访问的规律(例如通过序列模式分析,能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A),预测用户的访问趋向,用来直接指导经营活动,给客户提供最直接、最周到的服务。例如当访问者浏览到某页面时,检查他的浏览所符合的序列模式,井在显眼的位置提示“访问该页面的人通常接著访问”的若干页面。
再次,分类聚类。分类技术是把数据项映射到预先定义好的类中,即对新添加到数据库里的数据进行分类。分类分析的输入集是一组记录集合和几种标记,按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。分类规则可以挖掘用户群的访问特征(某些共同的特性)。分类要解决的问题是为一个事件或对象归类。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应,如哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或进行商店定位,如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库,分析每一预期的商店位置属性,以确定预期的商店定位属于哪一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有很多,典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题。另外还有一些其它分类方法,包括k-最临近分类、MBR、遗传算法、粗糙集和模糊集方法。目前,尚未发现有一种方法对所有数据都优于其它方法。实验研究表明,许多算法的准确性非常相似,其差别是统计不明显,而训练时间可能显著不同。一般地,大部分神经网络和涉及样条的统计分类与大部分判定树方法相比,趋向于计算量大。
聚类技术不同于分类,它的输入集是未标记的记录。聚类主要是把所有用户划分为若干组,具有相似特性(或浏览模式)的用户分在一组,以便制定特殊市场战略,如自动给一个特定的顾客聚类发送销售邮件,为一个顾客聚类动态地改变一个特殊的站点等。聚类在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法(如分类)的预处理步骤,这些算法再在生成的簇上进行处理。聚类技术主要有两类:统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。
最后,路径分析。使用路径分析技术进行Web数据挖掘,主要是从由网站结构构成的图中确定最频繁的路径访问模式,从而改进页面及相应调整站点的结构。另外,还可以从相似访问子图的客户中进行分析和聚类。
三、Web数据在电子商务中的实践
在零售业电子商务中,Web数据挖掘主要用于商品的市场定位和消费分析,以辅助制定市场策略,还可以用来分析购物模式,预测销售行情等。通常表现在以下几点应用:
首先,聚类客户,随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题,在电子商务中客户聚类足一个重要的方面。通过对电子商务系统收集的交易数据进行聚类分析,对具有相似浏览行为或客户指标(如自然属性、收入贡献、交易额、价值度等)的客户进行分组,找出分组中客户的共同特征,从而确定不同类型客户的行为模式,以便根据市场细分采取相应的营销措施,促使企业利润的最大化。例如有一些客户经常浏览有关“家具”、“家用电器”的页面,经过分析这些客户被聚类分为一组,他们可能是将要结婚的客户,商家可以针对该群体的需求,为他们发送相应产品目录和广告、
其次,提供个性化服务。针对不同的客户,让其感到整个网站完全为他自己定制的个性化网站,是Web网站成功的秘诀。通过Web数据挖掘,分析出客户频繁访问路径和兴趣页面集合,掌握其浏览兴趣和基本特征,及时调整商品销售信息,迎合客户的需要,从而向客户提供个性化服务,提高客户的满意度。个性化服务的主要表现形式有:推荐的超链接列表,推荐的商品列表,推荐的广告列表,经裁剪的文本或图像列表等。
再次,挖掘潜在的客户。对一个现代商家来说,如何快速发现更多潜在的客户,提高对市场活动的响应力,从而提高市场占有率是至关重要的。通过web数据挖掘可以对潜在客户信息进行分类和聚类分析,再由模式分析预测哪些可能成为新客户,以帮助市场销售人员找到正确的营销对象,Web数据挖掘还可以揭示客户的行为习惯,发现在不同情况下有相似行为的新客户,帮助商家识别出潜在的客户群,并提高对市场活动的响应力,采用积极的营销策略,不断挖掘新客户,从而提高市场占有率。
最后,改进站点的设计。利用Web数据挖掘,可以使网站管理人员更清楚地了解和掌握站点的运行状况,更合理地设计站点的拓扑结构和网页的链接,有利于访问者快速找到自己所需要的信息和商品,让客户能够容易地访问到想访问的页面,节约客户的访问时间,给客户留下好的印象,增加下次访问的机率。
Web数据挖掘是在传统的数据挖掘的基础上发展起来的一门综合技术,它主要致力于在网络海量的异构的信息资源中寻找蕴涵的有价值的知识。而近年来,随着电子商务的迅速发展,Web数据挖掘有了更大的用武之地。它能够帮助零售业商家获得和保留客户,延长客户驻留时间,调整市场策略,进行正确的决策,促进电子商务的发展。随着基于Web的数据挖掘算法的不断发展和成熟,Web数据挖掘一定会有更加广阔的应用前景。
参考文献:
[1]《数据挖掘概念与技术》.(加)Jiawei Han,Micheline Kamber,著.范明,孟小峰等,译.机械工业出版社,2005.8.
[2]《构件面向CRM的数据挖掘應用》.(美)贝尔森,(美)史密斯,(美)西瑞林,著.贺奇等,译.人民邮电出版社,2001.8.
[3]《数据挖掘原理》.David Hand,Heikki Mannila,Padhraic Smyth,著.张银奎,廖丽,宋俊等,译.机械工业出版社,2003.4.
[4]《Web数据挖掘:将客户数据转化为客户价值》.(美)Gordon S.Linoff,Michael J.A.Berry,著.沈钧毅,宋擒豹,燕彩蓉等,译.电子工业出版社,2004.3.
(作者单位:吉林大学)
【关键词】电子商务 Web数据挖掘 零售业 关联 聚类 分类
Web数据挖掘是数据挖掘技术在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学等多个领域,是一项综合技术。对于零售企业,通过Web数据挖掘,不仅为企业做出正确的商业决策提供强有力的工具,也为商家更加深入地了解客户需求信息和购物行为特征提供了可能性,从而开展有针对性的电子商务。
一、Web数据挖掘
Web数据挖掘是针对包括Web页面内容、站点拓扑结构、用户访问信息、用户注册信息及电子商务交易信息等在内的各种Web数据,在一定基础上应用数据挖掘方法以发现有用的隐含知识的过程。Web挖掘可分为三类:Web内容挖掘(Web Content Mining)、Web使用挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。
Web内容挖掘。Web内容挖掘是指从Web页面内容及其描述信息中获取有价值的知识或模式的过程,它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化的、半结构化的。Web内容挖掘可以完成概括某些特定文本内容、对文本集合进行分类或聚类,以及进行Web文档趋势预测等工作。多媒体信息挖掘的挖掘对象则是Web上的音频、视频数据和图像等。
Web使用挖掘。Web使用挖掘目的是从用户访问Web时在服务器上留下的访问记录中抽取感兴趣的知识。挖掘对象主要是服务器上的日志信息,包括服务器日志、代理服务器日志和客户端的Cookie等。通过分析关于用户访问和交互的信息,发现用户感兴趣的模式,更好地理解用户的行为,从而改进站点的结构,为用户提供个性化的服务。
Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识,Web结构包括不同网页之间的超链接结构和一个网页内部的树形结构,以及文档URL中的目录路径结构等。通过文档之间的超链接,可以挖掘出文档间关联关系所代表的信息,从而帮助发现用户相关主题的权威页面和进行页面等级划分;通过分析Web网页内部树形结构,可以发现与给定页面集合相关的其它页面。
二、使用的Web数据挖掘技术
首先,关联规则。关联规则主要关注事务内在关系。关联规则挖掘就是挖掘出用户在一个访问期间(session)从服务器上访问的页面/文件之间的关系,找出在某次服务器会话中最经常一起出现的相关页面。挖掘发现的关联规则往往是指支持度超过预设阀值的一组访问网页,这些网页之间可能并不存在直接的引用(Reference)关系。
关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对股票涨跌的分析。以市场货篮这个典型例子分析关联规则。“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶“(面包 黄油 牛奶)。用于规则发现的对象主要是事务型数据库,分析的是售货数据,也称货篮数据。以下给出的数学模型用来描述关联规则的发现问题:增长、STEM、AIS、DHP等算法分类发现-Y在事务集D上的支持度support(X∪Y)=s。可信度为c,如果c=support(X∪Y)*100/support(X),则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(strong rules)。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为,这对于改进零售业等商业活动的决策很有帮助。
其次,序列模式。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度c和最小支持度s。序列模式主要关注事务之间的关系。序列模式数据挖掘就是挖掘出交易集之间有时间序列关系的模式,在访问日志中发现所有满足用户规定的最小支持度s的大序列模式,寻找用户普遍访问的规律(例如通过序列模式分析,能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A),预测用户的访问趋向,用来直接指导经营活动,给客户提供最直接、最周到的服务。例如当访问者浏览到某页面时,检查他的浏览所符合的序列模式,井在显眼的位置提示“访问该页面的人通常接著访问”的若干页面。
再次,分类聚类。分类技术是把数据项映射到预先定义好的类中,即对新添加到数据库里的数据进行分类。分类分析的输入集是一组记录集合和几种标记,按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。分类规则可以挖掘用户群的访问特征(某些共同的特性)。分类要解决的问题是为一个事件或对象归类。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应,如哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或进行商店定位,如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库,分析每一预期的商店位置属性,以确定预期的商店定位属于哪一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有很多,典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题。另外还有一些其它分类方法,包括k-最临近分类、MBR、遗传算法、粗糙集和模糊集方法。目前,尚未发现有一种方法对所有数据都优于其它方法。实验研究表明,许多算法的准确性非常相似,其差别是统计不明显,而训练时间可能显著不同。一般地,大部分神经网络和涉及样条的统计分类与大部分判定树方法相比,趋向于计算量大。
聚类技术不同于分类,它的输入集是未标记的记录。聚类主要是把所有用户划分为若干组,具有相似特性(或浏览模式)的用户分在一组,以便制定特殊市场战略,如自动给一个特定的顾客聚类发送销售邮件,为一个顾客聚类动态地改变一个特殊的站点等。聚类在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法(如分类)的预处理步骤,这些算法再在生成的簇上进行处理。聚类技术主要有两类:统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。
最后,路径分析。使用路径分析技术进行Web数据挖掘,主要是从由网站结构构成的图中确定最频繁的路径访问模式,从而改进页面及相应调整站点的结构。另外,还可以从相似访问子图的客户中进行分析和聚类。
三、Web数据在电子商务中的实践
在零售业电子商务中,Web数据挖掘主要用于商品的市场定位和消费分析,以辅助制定市场策略,还可以用来分析购物模式,预测销售行情等。通常表现在以下几点应用:
首先,聚类客户,随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题,在电子商务中客户聚类足一个重要的方面。通过对电子商务系统收集的交易数据进行聚类分析,对具有相似浏览行为或客户指标(如自然属性、收入贡献、交易额、价值度等)的客户进行分组,找出分组中客户的共同特征,从而确定不同类型客户的行为模式,以便根据市场细分采取相应的营销措施,促使企业利润的最大化。例如有一些客户经常浏览有关“家具”、“家用电器”的页面,经过分析这些客户被聚类分为一组,他们可能是将要结婚的客户,商家可以针对该群体的需求,为他们发送相应产品目录和广告、
其次,提供个性化服务。针对不同的客户,让其感到整个网站完全为他自己定制的个性化网站,是Web网站成功的秘诀。通过Web数据挖掘,分析出客户频繁访问路径和兴趣页面集合,掌握其浏览兴趣和基本特征,及时调整商品销售信息,迎合客户的需要,从而向客户提供个性化服务,提高客户的满意度。个性化服务的主要表现形式有:推荐的超链接列表,推荐的商品列表,推荐的广告列表,经裁剪的文本或图像列表等。
再次,挖掘潜在的客户。对一个现代商家来说,如何快速发现更多潜在的客户,提高对市场活动的响应力,从而提高市场占有率是至关重要的。通过web数据挖掘可以对潜在客户信息进行分类和聚类分析,再由模式分析预测哪些可能成为新客户,以帮助市场销售人员找到正确的营销对象,Web数据挖掘还可以揭示客户的行为习惯,发现在不同情况下有相似行为的新客户,帮助商家识别出潜在的客户群,并提高对市场活动的响应力,采用积极的营销策略,不断挖掘新客户,从而提高市场占有率。
最后,改进站点的设计。利用Web数据挖掘,可以使网站管理人员更清楚地了解和掌握站点的运行状况,更合理地设计站点的拓扑结构和网页的链接,有利于访问者快速找到自己所需要的信息和商品,让客户能够容易地访问到想访问的页面,节约客户的访问时间,给客户留下好的印象,增加下次访问的机率。
Web数据挖掘是在传统的数据挖掘的基础上发展起来的一门综合技术,它主要致力于在网络海量的异构的信息资源中寻找蕴涵的有价值的知识。而近年来,随着电子商务的迅速发展,Web数据挖掘有了更大的用武之地。它能够帮助零售业商家获得和保留客户,延长客户驻留时间,调整市场策略,进行正确的决策,促进电子商务的发展。随着基于Web的数据挖掘算法的不断发展和成熟,Web数据挖掘一定会有更加广阔的应用前景。
参考文献:
[1]《数据挖掘概念与技术》.(加)Jiawei Han,Micheline Kamber,著.范明,孟小峰等,译.机械工业出版社,2005.8.
[2]《构件面向CRM的数据挖掘應用》.(美)贝尔森,(美)史密斯,(美)西瑞林,著.贺奇等,译.人民邮电出版社,2001.8.
[3]《数据挖掘原理》.David Hand,Heikki Mannila,Padhraic Smyth,著.张银奎,廖丽,宋俊等,译.机械工业出版社,2003.4.
[4]《Web数据挖掘:将客户数据转化为客户价值》.(美)Gordon S.Linoff,Michael J.A.Berry,著.沈钧毅,宋擒豹,燕彩蓉等,译.电子工业出版社,2004.3.
(作者单位:吉林大学)