Web挖掘在电子商务系统中的应用

来源 :商场现代化 | 被引量 : 0次 | 上传用户:fanlinliuliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 本文阐述了在电子商务应用中,利用Web挖掘技术,有效地将用户访问过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用Apriori改进算法FT-树增长算法,找出对电子商务系统有指导作用的关联规律。
  [关键词] 电子商务 数据挖掘 日志挖掘 知识发现 人工智能
  随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。
  Web中包含的丰富和动态的超链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对Web中的数据进行有效的资源和知识发现,是Web挖掘需要解决的问题。
  
  一、Web信息数据的特征
  
  传统数据挖掘的信息局限于数据库中的结构化数据,而Web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。Web及其数据的更新、增长速度极快, Web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户IP地址等这些潜在的访问信息。
  
  二、数据挖掘及Web挖掘技术
  
  1.数据挖掘
  数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(KDD)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。
  2.Web挖掘
  Web挖掘是对数据挖掘的一种新的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而Web挖掘的对象是半结构化或非结构化特征。
  Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与Web结合起来。Web挖掘分为:Web内容挖掘、Web结构挖掘和Web使用记录挖掘,如下图所示。
  图 Web挖掘的分类
  
  三、基于Web日志挖掘的算法
  
  Web日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户IP地址、被请求文件的URL HTTP版本号、传输字节数、引用页的URL等。
  1.符号与定义
  Web日志文件是由一条记录组成的,一条记录实际上记录的是用户对Web页面的一次访问。
  定义1关联规则:设I是Web日志的一条记录,即I={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户IP地址等数据,称此类数据为数据项。Ti∈I为I的一个子集。D={T1,T2,…,Tn}是关于Ti的集合,且X∈I,Y∈I,X∩Y =Ф,则记录X=>Y为在集合D中X与Y相互关联的规则。
  定义2支持度:如果X=>Y在T中的S%成立,则称X=>Y的支持度为S%,即
  S% =(|{t|t中含有X,Y}|/|T|)·100%
  支持度S%表示X=>Y中出现的普遍程度。
  定义3置信度C%
  C%=(|{t|t中含有X,Y}|/|{t|t中含有X}|)·100%
  置信度表征的是规则的强度。
  定义4频繁模式:大于给定的支持度的模式X=>Y称为频繁模式,并将它看成是T中一条有意义的关联规则。
  2.算法描述
  根据FP-增长或频繁模式增长(Frequent-pattern Growth)算法,将关联规则的挖掘分为两个步骤实施:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。
  (1)FP-增长算法的具体算法描述如下:
  输入事务数据库D,最小支持度阈值min_sup
  输出D中的所有频繁项集
  方法1按以下步骤扫描构造FP-树:
  ①扫描事务数据库D一次。收集频繁项的集合F和其支持度。对F按支持度降序排序,结果为频繁项表L。
  ②创建FP-树的根节点,以“null”标记。对D中每个Trans,执行:
  选择Trans中的频繁项,按L中的次序排序。设排序后的频繁项表为[p│P],其中p是第一个元素,P是剩余的元素表。调用insert_tree([p│P] ,T)。即:如果T有子女N使得N.item-name = p.item-name,则N的记数增加1,否则创建一个新节点N,并将其计数设置为1,链接到它的父节点T,并通过节点链接结构将其链接到具有相同item–name的节点。如果P非空,递归调用insert_tree(P,N)。
  方法2procedure FT_growth(Tree,α)
  if Tree含单个路径P then
  for P中节点的每个组合(记作β)产生模式β∪α,其支持度support=β中节点最小支持度;
  else for each αi在Tree的头部{
  产生一个模式β=αi∪α,其支持度support =αi·support;
  构造β的条件模式基,然后构造β的条件FP-树Treeβ;
  if Treeβ≠φthen
  调用FP_growth(Treeβ,β);}
  (2)产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的Web日志数据文件。一维是商品号,共有三种商品,分别标志为T1,T2,T3;另一维包括商品的访问次数,为简化处理,分别标志为Interview1,Interview2,Interview3,Interview4,Interview5。另假设Min_sup=0.3,Minconf =0.5,表1给出了两维的事务数据库,表2给出的是一维频繁项集,表3给出的是二维频繁项集。
  表1 事务数据库表2 一维频繁项集表3 二维频繁项集
  
  四、结束语
  
  本文提出了一种基于日志的Web数据挖掘方法,对电子商务系统具有较强的现实指导意义。Web日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在Web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化Web站点的依据。
  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
[摘要] 在网络交易中,人们对信息的搜寻突破了传统,呈现出新的特点,本文通过对目前C2C网络零售市场中存在的信息不对称现象进行研究分析,并对存在问题提出了现实对策。  [关键词]C2C信息不对称 不利选择网络诈骗  信息不对称是指市场交易的双方所掌握的交易所需的信息的度量不同,掌握信息多的一方处于信息优势,掌握信息少的一方处于信息劣势。信息经济学中有许多针对传统市场交易的信息不对称分析,如阿克洛夫
期刊
[摘要] 农村劳动力转移问题是当前社会热点问题,河北省农村劳动力文化素质和职业技能结构失衡成为影响农村剩余劳动力转移的“瓶颈”,目前农村劳动力培训还存在很多问题和障碍,而通过多渠道、多层次、多形式的多维培训体系,在建设社会主义新农村的目标指引下,综合发挥各职能部门、各服务系统的管理与服务职能,整合各种培训资源,改革现有培训机制,探索符合地方实际的培训措施,培育新型农民。   [关键词] 多维培训
期刊
[摘要] 我国加入WTO,外资零售企业的大举进入达到一个新的高潮,这给我国大型零售企业的发展既带来了巨大的挑战,同时也带来加速发展的机遇。我国大型零售商业企业要在激烈的竞争中求生存、图发展,就必须进一步增强自己的核心竞争力。本文从差异化经营、控制成本、发展信息技术、加强人力资源开发、营造企业文化五个方面提出了增强大型零售商业企业核心竞争力的对策。  [关键词] 大型零售企业 核心竞争力 对策   
期刊
[摘要] 随着外资进入和我国保险市场的全面开放,使未来我国的财险市场竞争格局增添了新的变数。中国财险业要做大做强,营销创新是实现这一目标的关键。本文分析了国内财产保险公司长期以来营销存在的问题,在此基础上提出突破传统营销思维,树立整合营销新思维,以推动我国财险业的更好发展。  [关键词] 财产保险 保险营销 整合营销  中国财产保险行业近几年来发展迅速,2000年~2004年保费收入年平均增长幅度
期刊
[摘要] 在激烈的市场竞争中,百货商店必须有自己明确和准确的市场定位,从而形成自身的经营特色和竞争优势。百货商店与其他行业的企业相比较,有着独特的营销组合要素,即店址、商品、服务、价格、沟通和环境。百货商店必须在营销组合方面和竞争对手形成差异,才能形成经营特色。本文结合实例具体分析了百货商店定位策略的运用。  [关键词] 百货商店 市场定位 特色 优势 策略  从上世纪90年代以来,我国的百货零售
期刊
[摘要] 试衣间文化,是服装企业品牌文化经营中不可遗忘,甚至可以说是至关重要的一部分,可是览看商场各大服装品牌,真正重视和做好了这个小却重要文化的寥寥无几,本文主要分析目前国内各大品牌在试衣间文化经营上的普遍现状,提出相应的一些问题,分析它们的不良影响,并对这些问题的解决策略进行一定的探讨。  [关键词] 试衣间文化 细节经营 品牌形象塑造  试衣间,顾名思义是在卖场中提供给顾客试衣服的空间,这是
期刊
电子电气产品的广泛使用对环境所造成的影响,日益引起人们的关注。世界各国纷纷制定法律法规管理报废电子电气产品,限制有害物质使用,管理能源消耗。2003年2月13日,欧洲联盟基于生产者责任原则,通过《欧洲官方公报》发布了2002/95/EC强制性环保指令——“欧洲议会和欧盟理事会关于在电子电气设备中限制使用某些有害物质的指令”(Proposal for a Directive of the Europ
期刊
[摘要] 文介绍了电子商务的定义、XML的基本特征,并介绍了在电子商务活动中以XML作为数据标准的优势所在,指出XML灵活的数据定义和显示、易扩充性、广泛的开发平台,以及在不同应用系统之间的灵活的数据传递都将使其成为电子商务活动中的重要标准之一。  [关键词] 电子商务 标准 XML    一、电子商务的定义及其信息要求    电子商务是信息技术高速发展的产物,它被定义为开放网络上的包含企业与企业
期刊
[摘要] 顾客忠诚是企业竞争力的重要表现,其中消费者的购买行为是形成忠诚的基础。客户关系管理(CRM)是基于电子商务背景下的一种新的理念、技术与方法,利用CRM对消费者购买行为的几个阶段进行分析,有利于将企业的信息化管理水平提高到一个新的层次,提高了企业竞争力。  [关键词] 消费者购买行为 CRM分析 客户价值  消费者的购买行为是指消费者为满足其个人或家庭生活需要而发生的购买商品的决策或行动,
期刊
[摘要] 在电子商务中,服务器与服务器之间、服务器与浏览器之间有大量的数据需要交换。这些被交换的数据,都被要求对数据的内容和表现方式有所说明,用XML担当这个重任是再合适不过了。因为它们的显示与信息是分开的,所以不增加任何程序,就可以使XML文档以不同的格式(由XSL样式指定)在各种设备上显示。  [关键词] 电子商务 后台数据 XML    一、XML在电子商务中的作用    在电子商务应用系统
期刊