基于关联分析的数据挖掘技术在电子商务中的应用

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:myjob3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文介绍了数据挖掘技术在电子商务中的应用,重点进行数据挖掘的关联分析技术分析。结合数据挖掘的相关技术,以便开发出有效、实用的数据挖掘系统。
  关键词:数据挖掘;电子商务;关联分析;系统
  中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (201105-0000-01
   Data Mining Technology Application in E-commerce Based on Correlation Analysis
  Wu Juhua
  (Xinxiang University,Xinxiang453000,China)
  Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system.
  Keywords:Data mining;E-commerce;Correlation analysis;System
  随着计算机技术,网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷,商家要了解客户的购买情况,需要对大量的购买数据进行分析,主要分析客户的喜好,对产品的要求,以及购物的具体需求,这样数据挖掘技术对具有海量的购买数据进行分析,可以得出有价值的信息,这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务,随着硬件发展的加快,如今的服务器都可以做数据挖掘的分析,因此,在电子商务平台应用数据挖掘技术是未来发展的一种趋势,这样可以避免企业造成决策上的失误。
  数据挖掘技术发展了数十年,一直停留在技术的研究,近几年数据挖掘技术被广泛的应用在各个领域,也越来越多的走近我们的生活,现在也具备实现数据挖掘技术在电子商务平台应用的条件,与电子商务销售关系最密切就是关联分析算法,选择这个算法就是为了判断客户与商品之间的关系,从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用,以数据挖掘的关联分析这个技术角度进行分析,指出各种数据挖掘技术适用的场合,以便开发出切实可用的数据挖掘电子商务系统。
  一、相关应用技术概念
  关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类:一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。
  关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
  关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
  Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法,它利用已知的高频数据项集推导其他高频数项集,是一种宽度优先算法。
  二、数据挖掘求解问题的步骤
  关联规则求解问题的步骤为:
  (一)预处理与采掘任务有关的数据,根据具体问题的要求对数据库进行相应的操作,从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用,要合理有效的把原数据格式化成规范化及合理的形式,这样可以让结果更准确。
  (二)针对D,求出所有满足最小支持度的项集,即大项集,此步是算法的核心。求出的项集数目非常大,要合理的筛选和分析,找出最佳条件。
  (三)生成满足最小可信度的规则,形成规则集R,解释并输出R。
  三、数据挖掘在电子商务的实际应用
  (一)在进行数据挖掘项目之前需要对数据进行预处理,数据预处理是知识发现中很重要的一个环节,占整个项目的60%的工作,高效的算法往往依赖于高质量的或者特殊要求的数据,数据预处理主要包括三个步骤:数据清理、数据集成和数据变换。数据清理是清除一些冗余数据,消除噪声数据,把不符合要求的数据去掉。数据集成需要把多种不同的数据源集中在一起,形成统一要求和规则的格式,有时候还需要把属性值合并,集成的数据还可以降低数据的维数,减少无用的变量等。
  (二)数据建立好之后,就需要建立挖掘的模型,同一数据表有很多种不同模型,建立的模型不同,那么挖掘出来的效果和准确性不一样,或者在定义的时候分析的内容也不一样,模型的建立应该建立在所要达到的目的的基础上,那么这个就是涉及到输入的列和预测的列,不同的列得到的结果不同,所以要明确项目的目的,在关联规则中,为了预测客户与商品间的关联性,可以输入全列和预测全列,得到不同的组合,主要因为关联规则主要是得出属性之间的关系,所以基本上可以把数据即当作输入列也当作预测列。模型建立好后可以随时修改模型,互相对比以期得到最有价值的信息。
  (三)进行相关项目挖掘后,会得到模型挖掘结果,这时候就需要对模型的挖掘结果进行理解和评估,得到有用的信息才可以真正应用到实际需求定位。分析结果的时候首先要判断其概率,正确性,准确性等数值是不是达到标准要求,首先取概率最高的结果,然后从概率最高的结果查看正确性,正确性高也不能代表结果符合要求,另外还要查看准确性图表,准确性图表反映挖掘在实际过程应用过程的基本情况,要提高准确性可以修改模型进一步进行项目挖掘,对比每次挖掘的图表可以找到好的模型结构。
  (四)对结果理解之后在应用到实际过程中,需要进行有效的分析,应用实际过程中,要跟踪分析,收集相关信息进一步做下一次挖掘的项目数据,有效的更改计划,让商品更符合客户需求的实际情况。然后根据数据挖掘对数据分析的结果,对电子商务系统不断调整,以符合最近时期的市场,在这个过程中,不断完善数据的收集和分析,使得数据挖掘系统和电子商务系统形成有机的整体。
  参考文献:
  [1]陈安,陈宁.数据挖掘技术及应用[M].科学出版社,2006
  [2]葛志远.电子商务应用与技术[M].清华大学出版社,2005
  [3]邓鲲鹏.数据挖掘与电子商务[J].商场现代化,2007(25):94
  [4]Larry L.Peterson,Bruce S.Davic. Computer Netword. Morgan Kaufmann Press.New Zealand,2002
  [作者简介]
  吴炬华(1979-),男,河南新乡人,助教,研究方向:计算机技术应用及教学。
  
其他文献
俗话说,父母是孩子的榜样,孩子是父母的镜子。父母作为孩子的第一任教师,做人的第一个楷模,我们的言行常常在孩子的身上得到再现。家庭环境的好坏,家长素质的高低,对我们孩子的成长
本文以我国国有企业实行协同办公系统的现实为背景,对其实施的可行性进行了分析,并进一步说明了国有企业实行协同办公系统的重要意义。
应用LKJ-DS系统,利用LAIS车载设备和专业版本信息采集设备实现LKJ版本信息的采集和实时传输,将采集到的LKJ版本信息与计划应装版本进行对比、校核,从而实现LKJ版本数据及软件版
使用ASPEN PLUS模拟甲醇一水精馏分离,通过灵敏度分析和绘图工具优化设计。
据有关资料分析,人的死亡80%~90%是内脏出了问题,所以锻炼身体必须注意对五脏的锻炼。五脏健康是人长寿的关键,若不注意对五脏的锻炼,势必事倍功半。我的这套健身法的核心就是要对五
摘要:3G通信网络的商用技术不断地发展,而WCDMA的组网、开发也成了通信运营商最为关注的问题。本论通过WCDMA网络的分析,对一套网络初始优化方案进行了制定,并能够对WCDMA网络的覆盖质量进行提升。  关键词:WCDMA;网络优化;路测  中图分类号:TN929.533 文献标识码:A 文章编号:1007-9599 (2012) 17-0000-02  网络覆盖、质量等各项网络性能在W
摘 要:ADSI在局域网管理中的应用,大大降低了管理和开发的难度,减轻了负担,方便用户的使用。目录对象和包容器对象之间存在着很大的相似性,都有与之对应的类别对象存在。本文先是对ADSI的目录服务进行了概述,又对ADSI结构进行了详细的分析介绍。  关键词:ADSI;局域网;目录服务;目录对象;包容器对象  中图分类号:TP311.52  目前,计算机技术已经在我国得到了前所未有的普及,随着使用的人
为满足RS-232全信号(RXD、TXD、R.TS、CTS)在长距离上传输的需求,提出了一种将RS-232信号进行转换,实现长距离传输要求的一种方法。该方法包括了串行接口信号转换电路设计和信息长
目的评价裸支架与覆膜支架治疗人工血管动静脉瘘(AVG)静脉端吻合口狭窄的临床效果。方法回顾性分析2011年1月至2015年11月中日友好医院收治的上肢AVG患者因静脉端吻合口狭窄及
期刊