论文部分内容阅读
摘要:本文介绍了数据挖掘技术在电子商务中的应用,重点进行数据挖掘的关联分析技术分析。结合数据挖掘的相关技术,以便开发出有效、实用的数据挖掘系统。
关键词:数据挖掘;电子商务;关联分析;系统
中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (201105-0000-01
Data Mining Technology Application in E-commerce Based on Correlation Analysis
Wu Juhua
(Xinxiang University,Xinxiang453000,China)
Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system.
Keywords:Data mining;E-commerce;Correlation analysis;System
随着计算机技术,网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷,商家要了解客户的购买情况,需要对大量的购买数据进行分析,主要分析客户的喜好,对产品的要求,以及购物的具体需求,这样数据挖掘技术对具有海量的购买数据进行分析,可以得出有价值的信息,这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务,随着硬件发展的加快,如今的服务器都可以做数据挖掘的分析,因此,在电子商务平台应用数据挖掘技术是未来发展的一种趋势,这样可以避免企业造成决策上的失误。
数据挖掘技术发展了数十年,一直停留在技术的研究,近几年数据挖掘技术被广泛的应用在各个领域,也越来越多的走近我们的生活,现在也具备实现数据挖掘技术在电子商务平台应用的条件,与电子商务销售关系最密切就是关联分析算法,选择这个算法就是为了判断客户与商品之间的关系,从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用,以数据挖掘的关联分析这个技术角度进行分析,指出各种数据挖掘技术适用的场合,以便开发出切实可用的数据挖掘电子商务系统。
一、相关应用技术概念
关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类:一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。
关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法,它利用已知的高频数据项集推导其他高频数项集,是一种宽度优先算法。
二、数据挖掘求解问题的步骤
关联规则求解问题的步骤为:
(一)预处理与采掘任务有关的数据,根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用,要合理有效的把原数据格式化成规范化及合理的形式,这样可以让结果更准确。
(二)针对D,求出所有满足最小支持度的项集,即大项集,此步是算法的核心。求出的项集数目非常大,要合理的筛选和分析,找出最佳条件。
(三)生成满足最小可信度的规则,形成规则集R,解释并输出R。
三、数据挖掘在电子商务的实际应用
(一)在进行数据挖掘项目之前需要对数据进行预处理,数据预处理是知识发现中很重要的一个环节,占整个项目的60%的工作,高效的算法往往依赖于高质量的或者特殊要求的数据,数据预处理主要包括三个步骤:数据清理、数据集成和数据变换。数据清理是清除一些冗余数据,消除噪声数据,把不符合要求的数据去掉。数据集成需要把多种不同的数据源集中在一起,形成统一要求和规则的格式,有时候还需要把属性值合并,集成的数据还可以降低数据的维数,减少无用的变量等。
(二)数据建立好之后,就需要建立挖掘的模型,同一数据表有很多种不同模型,建立的模型不同,那么挖掘出来的效果和准确性不一样,或者在定义的时候分析的内容也不一样,模型的建立应该建立在所要达到的目的的基础上,那么这个就是涉及到输入的列和预测的列,不同的列得到的结果不同,所以要明确项目的目的,在关联规则中,为了预测客户与商品间的关联性,可以输入全列和预测全列,得到不同的组合,主要因为关联规则主要是得出属性之间的关系,所以基本上可以把数据即当作输入列也当作预测列。模型建立好后可以随时修改模型,互相对比以期得到最有价值的信息。
(三)进行相关项目挖掘后,会得到模型挖掘结果,这时候就需要对模型的挖掘结果进行理解和评估,得到有用的信息才可以真正应用到实际需求定位。分析结果的时候首先要判断其概率,正确性,准确性等数值是不是达到标准要求,首先取概率最高的结果,然后从概率最高的结果查看正确性,正确性高也不能代表结果符合要求,另外还要查看准确性图表,准确性图表反映挖掘在实际过程应用过程的基本情况,要提高准确性可以修改模型进一步进行项目挖掘,对比每次挖掘的图表可以找到好的模型结构。
(四)对结果理解之后在应用到实际过程中,需要进行有效的分析,应用实际过程中,要跟踪分析,收集相关信息进一步做下一次挖掘的项目数据,有效的更改计划,让商品更符合客户需求的实际情况。然后根据数据挖掘对数据分析的结果,对电子商务系统不断调整,以符合最近时期的市场,在这个过程中,不断完善数据的收集和分析,使得数据挖掘系统和电子商务系统形成有机的整体。
参考文献:
[1]陈安,陈宁.数据挖掘技术及应用[M].科学出版社,2006
[2]葛志远.电子商务应用与技术[M].清华大学出版社,2005
[3]邓鲲鹏.数据挖掘与电子商务[J].商场现代化,2007(25):94
[4]Larry L.Peterson,Bruce S.Davic. Computer Netword. Morgan Kaufmann Press.New Zealand,2002
[作者简介]
吴炬华(1979-),男,河南新乡人,助教,研究方向:计算机技术应用及教学。
关键词:数据挖掘;电子商务;关联分析;系统
中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (201105-0000-01
Data Mining Technology Application in E-commerce Based on Correlation Analysis
Wu Juhua
(Xinxiang University,Xinxiang453000,China)
Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system.
Keywords:Data mining;E-commerce;Correlation analysis;System
随着计算机技术,网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷,商家要了解客户的购买情况,需要对大量的购买数据进行分析,主要分析客户的喜好,对产品的要求,以及购物的具体需求,这样数据挖掘技术对具有海量的购买数据进行分析,可以得出有价值的信息,这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务,随着硬件发展的加快,如今的服务器都可以做数据挖掘的分析,因此,在电子商务平台应用数据挖掘技术是未来发展的一种趋势,这样可以避免企业造成决策上的失误。
数据挖掘技术发展了数十年,一直停留在技术的研究,近几年数据挖掘技术被广泛的应用在各个领域,也越来越多的走近我们的生活,现在也具备实现数据挖掘技术在电子商务平台应用的条件,与电子商务销售关系最密切就是关联分析算法,选择这个算法就是为了判断客户与商品之间的关系,从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用,以数据挖掘的关联分析这个技术角度进行分析,指出各种数据挖掘技术适用的场合,以便开发出切实可用的数据挖掘电子商务系统。
一、相关应用技术概念
关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类:一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。
关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法,它利用已知的高频数据项集推导其他高频数项集,是一种宽度优先算法。
二、数据挖掘求解问题的步骤
关联规则求解问题的步骤为:
(一)预处理与采掘任务有关的数据,根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用,要合理有效的把原数据格式化成规范化及合理的形式,这样可以让结果更准确。
(二)针对D,求出所有满足最小支持度的项集,即大项集,此步是算法的核心。求出的项集数目非常大,要合理的筛选和分析,找出最佳条件。
(三)生成满足最小可信度的规则,形成规则集R,解释并输出R。
三、数据挖掘在电子商务的实际应用
(一)在进行数据挖掘项目之前需要对数据进行预处理,数据预处理是知识发现中很重要的一个环节,占整个项目的60%的工作,高效的算法往往依赖于高质量的或者特殊要求的数据,数据预处理主要包括三个步骤:数据清理、数据集成和数据变换。数据清理是清除一些冗余数据,消除噪声数据,把不符合要求的数据去掉。数据集成需要把多种不同的数据源集中在一起,形成统一要求和规则的格式,有时候还需要把属性值合并,集成的数据还可以降低数据的维数,减少无用的变量等。
(二)数据建立好之后,就需要建立挖掘的模型,同一数据表有很多种不同模型,建立的模型不同,那么挖掘出来的效果和准确性不一样,或者在定义的时候分析的内容也不一样,模型的建立应该建立在所要达到的目的的基础上,那么这个就是涉及到输入的列和预测的列,不同的列得到的结果不同,所以要明确项目的目的,在关联规则中,为了预测客户与商品间的关联性,可以输入全列和预测全列,得到不同的组合,主要因为关联规则主要是得出属性之间的关系,所以基本上可以把数据即当作输入列也当作预测列。模型建立好后可以随时修改模型,互相对比以期得到最有价值的信息。
(三)进行相关项目挖掘后,会得到模型挖掘结果,这时候就需要对模型的挖掘结果进行理解和评估,得到有用的信息才可以真正应用到实际需求定位。分析结果的时候首先要判断其概率,正确性,准确性等数值是不是达到标准要求,首先取概率最高的结果,然后从概率最高的结果查看正确性,正确性高也不能代表结果符合要求,另外还要查看准确性图表,准确性图表反映挖掘在实际过程应用过程的基本情况,要提高准确性可以修改模型进一步进行项目挖掘,对比每次挖掘的图表可以找到好的模型结构。
(四)对结果理解之后在应用到实际过程中,需要进行有效的分析,应用实际过程中,要跟踪分析,收集相关信息进一步做下一次挖掘的项目数据,有效的更改计划,让商品更符合客户需求的实际情况。然后根据数据挖掘对数据分析的结果,对电子商务系统不断调整,以符合最近时期的市场,在这个过程中,不断完善数据的收集和分析,使得数据挖掘系统和电子商务系统形成有机的整体。
参考文献:
[1]陈安,陈宁.数据挖掘技术及应用[M].科学出版社,2006
[2]葛志远.电子商务应用与技术[M].清华大学出版社,2005
[3]邓鲲鹏.数据挖掘与电子商务[J].商场现代化,2007(25):94
[4]Larry L.Peterson,Bruce S.Davic. Computer Netword. Morgan Kaufmann Press.New Zealand,2002
[作者简介]
吴炬华(1979-),男,河南新乡人,助教,研究方向:计算机技术应用及教学。