基于关联分析的数据挖掘技术在电子商务中的应用

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：myjob3

【摘要】

：

【作者】

：

吴炬华

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2011年5期

【关键词】

：

数据挖掘电子商务关联分析系统 Data mining E-commerce Correlation analysis System

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文介绍了数据挖掘技术在电子商务中的应用，重点进行数据挖掘的关联分析技术分析。结合数据挖掘的相关技术，以便开发出有效、实用的数据挖掘系统。
　　关键词：数据挖掘；电子商务；关联分析；系统
　　中图分类号：TP311.13 文献标识码：A文章编号：1007-9599 (201105-0000-01
　　 Data Mining Technology Application in E-commerce Based on Correlation Analysis
　　Wu Juhua
　　(Xinxiang University,Xinxiang453000,China)
　　Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system.
　　Keywords:Data mining;E-commerce;Correlation analysis;System
　　随着计算机技术，网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷，商家要了解客户的购买情况，需要对大量的购买数据进行分析，主要分析客户的喜好，对产品的要求，以及购物的具体需求，这样数据挖掘技术对具有海量的购买数据进行分析，可以得出有价值的信息，这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务，随着硬件发展的加快，如今的服务器都可以做数据挖掘的分析，因此，在电子商务平台应用数据挖掘技术是未来发展的一种趋势，这样可以避免企业造成决策上的失误。
　　数据挖掘技术发展了数十年，一直停留在技术的研究，近几年数据挖掘技术被广泛的应用在各个领域，也越来越多的走近我们的生活，现在也具备实现数据挖掘技术在电子商务平台应用的条件，与电子商务销售关系最密切就是关联分析算法，选择这个算法就是为了判断客户与商品之间的关系，从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用，以数据挖掘的关联分析这个技术角度进行分析，指出各种数据挖掘技术适用的场合，以便开发出切实可用的数据挖掘电子商务系统。
　　一、相关应用技术概念
　　关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类：一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。
　　关联规则定义为：假设I是项的集合。给定一个交易数据库，其中每个事务（Transaction）t是I的非空子集，即，每一个交易都与一个唯一的标识符TID（Transaction ID）对应。关联规则在D中的支持度（support）是D中事务同时包含X、Y的百分比，即概率；置信度（confidence）是包含X的事务中同时又包含Y的百分比，即条件概率。关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
　　关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组（Frequent Itemsets），第二阶段再由这些高频项目组中产生关联规则（Association Rules）。
　　Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法，它利用已知的高频数据项集推导其他高频数项集，是一种宽度优先算法。
　　二、数据挖掘求解问题的步骤
　　关联规则求解问题的步骤为：
　　（一）预处理与采掘任务有关的数据，根据具体问题的要求对数据库进行相应的操作，从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用，要合理有效的把原数据格式化成规范化及合理的形式，这样可以让结果更准确。
　　（二）针对D，求出所有满足最小支持度的项集，即大项集，此步是算法的核心。求出的项集数目非常大，要合理的筛选和分析，找出最佳条件。
　　（三）生成满足最小可信度的规则，形成规则集R，解释并输出R。
　　三、数据挖掘在电子商务的实际应用
　　（一）在进行数据挖掘项目之前需要对数据进行预处理，数据预处理是知识发现中很重要的一个环节，占整个项目的60%的工作，高效的算法往往依赖于高质量的或者特殊要求的数据，数据预处理主要包括三个步骤：数据清理、数据集成和数据变换。数据清理是清除一些冗余数据，消除噪声数据，把不符合要求的数据去掉。数据集成需要把多种不同的数据源集中在一起，形成统一要求和规则的格式，有时候还需要把属性值合并，集成的数据还可以降低数据的维数，减少无用的变量等。
　　（二）数据建立好之后，就需要建立挖掘的模型，同一数据表有很多种不同模型，建立的模型不同，那么挖掘出来的效果和准确性不一样，或者在定义的时候分析的内容也不一样，模型的建立应该建立在所要达到的目的的基础上，那么这个就是涉及到输入的列和预测的列，不同的列得到的结果不同，所以要明确项目的目的，在关联规则中，为了预测客户与商品间的关联性，可以输入全列和预测全列，得到不同的组合，主要因为关联规则主要是得出属性之间的关系，所以基本上可以把数据即当作输入列也当作预测列。模型建立好后可以随时修改模型，互相对比以期得到最有价值的信息。
　　（三）进行相关项目挖掘后，会得到模型挖掘结果，这时候就需要对模型的挖掘结果进行理解和评估，得到有用的信息才可以真正应用到实际需求定位。分析结果的时候首先要判断其概率，正确性，准确性等数值是不是达到标准要求，首先取概率最高的结果，然后从概率最高的结果查看正确性，正确性高也不能代表结果符合要求，另外还要查看准确性图表，准确性图表反映挖掘在实际过程应用过程的基本情况，要提高准确性可以修改模型进一步进行项目挖掘，对比每次挖掘的图表可以找到好的模型结构。
　　（四）对结果理解之后在应用到实际过程中，需要进行有效的分析，应用实际过程中，要跟踪分析，收集相关信息进一步做下一次挖掘的项目数据，有效的更改计划，让商品更符合客户需求的实际情况。然后根据数据挖掘对数据分析的结果，对电子商务系统不断调整，以符合最近时期的市场，在这个过程中，不断完善数据的收集和分析，使得数据挖掘系统和电子商务系统形成有机的整体。
　　参考文献：
　　[1]陈安,陈宁.数据挖掘技术及应用[M].科学出版社,2006
　　[2]葛志远.电子商务应用与技术[M].清华大学出版社,2005
　　[3]邓鲲鹏.数据挖掘与电子商务[J].商场现代化,2007(25):94
　　[4]Larry L.Peterson，Bruce S.Davic. Computer Netword. Morgan Kaufmann Press.New Zealand,2002
　　[作者简介]
　　吴炬华（1979-），男，河南新乡人，助教，研究方向：计算机技术应用及教学。
　　

其他文献

孩子是父母的镜子

俗话说，父母是孩子的榜样，孩子是父母的镜子。父母作为孩子的第一任教师，做人的第一个楷模，我们的言行常常在孩子的身上得到再现。家庭环境的好坏，家长素质的高低，对我们孩子的成长

期刊

孩子家庭环境家长素质统计结果

协同办公系统在国有企业管理中的应用与探索

本文以我国国有企业实行协同办公系统的现实为背景，对其实施的可行性进行了分析，并进一步说明了国有企业实行协同办公系统的重要意义。

期刊

协同办公系统国有企业管理:可行性Cooperative Office SystemState-owned enterprises managementF

LKJ版本信息监测系统应用研究

应用LKJ-DS系统，利用LAIS车载设备和专业版本信息采集设备实现LKJ版本信息的采集和实时传输，将采集到的LKJ版本信息与计划应装版本进行对比、校核，从而实现LKJ版本数据及软件版

期刊

列车运行监控装置版本信息监测系统系统设计

ASPEN PLUS在化工设计中的应用

使用ASPEN PLUS模拟甲醇一水精馏分离，通过灵敏度分析和绘图工具优化设计。

期刊

巷馏模拟优化DistillationSimulationOpdmization

我的健身法

据有关资料分析，人的死亡80％～90％是内脏出了问题，所以锻炼身体必须注意对五脏的锻炼。五脏健康是人长寿的关键，若不注意对五脏的锻炼，势必事倍功半。我的这套健身法的核心就是要对五

期刊

健身法饮水法吸氧法通肠法健齿法醒脑法

基于3G培训网的WCDMA网络优化与测试研究

摘要：3G通信网络的商用技术不断地发展，而WCDMA的组网、开发也成了通信运营商最为关注的问题。本论通过WCDMA网络的分析，对一套网络初始优化方案进行了制定，并能够对WCDMA网络的覆盖质量进行提升。　　关键词：WCDMA；网络优化；路测　　中图分类号：TN929.533 文献标识码：A 文章编号：1007-9599 （2012） 17-0000-02　　网络覆盖、质量等各项网络性能在W

期刊

WCDMA网络优化路测

分析ADSI在局域网管理中的应用

摘要：ADSI在局域网管理中的应用，大大降低了管理和开发的难度，减轻了负担，方便用户的使用。目录对象和包容器对象之间存在着很大的相似性，都有与之对应的类别对象存在。本文先是对ADSI的目录服务进行了概述，又对ADSI结构进行了详细的分析介绍。　　关键词：ADSI；局域网；目录服务；目录对象；包容器对象　　中图分类号：TP311.52　　目前，计算机技术已经在我国得到了前所未有的普及，随着使用的人

期刊

关于实现RS-232全信号远距离传输的应用

为满足RS-232全信号（RXD、TXD、R．TS、CTS）在长距离上传输的需求，提出了一种将RS-232信号进行转换，实现长距离传输要求的一种方法。该方法包括了串行接口信号转换电路设计和信息长

期刊

RS-232RS-422全信号长距离RS-232RS-422Full signalLong-distance

裸支架与覆膜支架治疗透析通路吻合口狭窄的对比研究

目的评价裸支架与覆膜支架治疗人工血管动静脉瘘（AVG）静脉端吻合口狭窄的临床效果。方法回顾性分析2011年1月至2015年11月中日友好医院收治的上肢AVG患者因静脉端吻合口狭窄及

期刊

人工血管动静脉瘘覆膜支架裸支架通畅率Arteriovenous graft Covered stent Bare stent Patency ra

关于“颈动脉内膜切除术”手术名称的商榷

期刊

基于关联分析的数据挖掘技术在电子商务中的应用

与本文相关的学术论文