电子商务中Web数据挖掘的应用研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:hbffff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 本文介绍了Web数据挖掘的概念及其分类,探讨了电子商务中Web数据挖掘的过程,重点研究了Web数据挖掘方法,从而有效提高电子商务企业的竞争力。
  [关键词] 电子商务 数据挖掘 Web挖掘
  
  Internet是一个巨大、分布广泛、全球性的信息资源储备库。随着上网人数的急剧增加,电子商务的蓬勃发展,各种基于互联网的商业Web站点也面临越来越激烈的竞争。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了大量丰富的资源。
  
  一、电子商务与Web数据挖掘
  
  电子商务(E-Commerce)是以网络为平台,以现代信息技术为手段,以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。无论EC企业采用B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,那么,一方面通过Web方式与购买者主动、方便、快捷的获得期望主题的信息;另一方面供应商与合作伙伴们如何通过他们的集成信息系统,运用知识把访问者、网上购买者的访问数据从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而提高企业的核心竞争力。
  Web数据挖掘(Web Data Mining)是利用数据挖掘从Web文档及Web服务中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息。Web数据挖掘的主要目标就是从Web的访问记录中抽取用户感兴趣的模式,WWW服务器中的访问日志,记录了关于用户访问和交互的信息,通过Web数据挖掘,就可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务活动,以更好地满足客户的需求。
  
  二、Web挖掘的分类
  
  Web挖掘是从WWW上抽取知识的过程。它是从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息。
  
  1.Web内容挖掘
  Web内容挖掘是对Web页面内容进行挖掘,是从大量的Web 数据中发现信息、抽取知识的过程。Web挖掘的数据源有:服务器数据、查询数据、在线市场数据、Web页面、Web页面的超级链接关系、客户登记信息等。
  
  2.Web结构挖掘
  Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。由于超文本文档间的关联关系使得WWW不仅仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序,发现重要的页面。挖掘Web结构的目的是发现页面的结构和Web结构,在此基础上对页面进行分类和聚类,从而找到权威页面。
  
  3.Web使用记录挖掘
  Web使用记录挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web access log),记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。
  
  三、Web挖掘的过程和方法
  
  1.Web挖掘的过程
  电子商务中的Web挖掘过程一般由3个主要阶段组成:数据准备、挖掘操作、结果表达和解释。
  (1)数据准备:这个阶段又可分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊准备,这个阶段又可分成为处理数据中的遗漏等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服数据挖掘工具的局限性。
  (2)数据挖掘:这个阶段进行实际的挖掘操作,包括的要点有:决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。
  (3)结果表述和解释:根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复上述过程。
  
  2.Web数据挖掘的方法
  (1)协同过滤:协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。
  (2)关联规则:关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:x=>y的蕴含式,其中x,y为属性——值对集(或称为项目集),且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y,则关联规则X=>Y的置信度为C%。
  (3)Web日志的聚类算法:聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同,客户访问情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度: 式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[Xi]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关Web页面。
  (4)序列分析:序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序关系。它能发现数据库中如“在某一段时间内,客户购买商品A,接着会购买商品B,尔后又购买商品C,即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。
  
  四、结束语
  
  电子商务是现代化技术发展的必然结果,也是未来商业运作模式的必然选择,但还需进一步键全电子商务的安全立法和完善物流配送体系。为了给电子商务营造一个良好的环境,通过选择较好的数据挖掘方法,真正发挥数据挖掘的作用,才能使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。
  
  参考文献:
  [1]毛国君段立娟:数据挖掘原理与算法[M].清华大学出版社,2005.7
  [2]王岚张鹏祥:基于Web的数据挖掘研究.长春师范学院学报,2005,24(3):59-61
其他文献
[摘要] TD-SCDMA产业的迅速发展将极大地影响我国社会的方方面面,通过对其现状和发展策略的分析,提出参考性建议,以保障我国TD-SCDMA产业健康持续地发展下去。  [关键词] TD-SCDMA3G市场需求趋势发展策略  我国TD-SCDMA产业的发展正发生着日新月异的变化,TD-SCDMA产业市场这块蛋糕到底有多大,如何充分享受到这块蛋糕而又能保持其健康持续的发展下去是TD-SCDMA产业
期刊
[摘要] 比较《物权法》和《担保法》可知,《物权法》对先前的担保制度做了大量的修改和创新:立法价值更注重当事人间的意思自治、同时引入浮动抵押、最高额质权等新担保形式等等,其意义是重要而进步的。但是《物权法》并非尽善尽美:对原《担保法》解释中诸如独立担保、抵押权转让等制度的舍弃过于轻率,破坏了立法的初衷,不得不说是《物权法》的漏洞所在。  [关键词] 浮动抵押 浮动抵押固定化 独立担保 最高额质权
期刊
[摘要] 2006年2月25日财政部公布了新修定的《企业会计准则》,并将于2007年1月1日率先在上市公司正式实施。其中第7号准则内容上有了很大变化。本文试对新修定的第7号准则进行分析,找出其科学合理性和不足之处。  [关键词] 非货币性资产交换公允价值商业实质补价  新准则与旧准则相比,最大区别是在确认和计量方面重新引入公允价值的概念,并以交换是否具有商业实质作为是否采用公允价值计量换入资产的判
期刊
[摘要] 本文选取LF2407A为控制芯片,以数字脉宽调制方法为基础,将系统控制中的SVPWM空间矢量调制算法通过DSP编程来实现,最终完成以SVPWM空间矢量调制技术为核心的三相交流调速系统。  [关键词] SVPWM交流调速系统设计   交流电动机的变频调速系统是各种调速系统中最为优越的一种电力拖动系统,它和其它的调速系统相比,具有良好的调速性能和节能效果。随着新型电力电子器件的不断出现,脉宽
期刊
[摘要] 本文在借鉴前人所建供应商评价指标体系的基础上,采用MTS方法进行有效特征的选取,对候选供应商进行量化评价,使之得到公正、客观的评价结果。  [关键词] MTS 供应商 评价体系    一、引言    随着全球化的竞争环境和信息化的浪潮的不断加剧,市场竞争越来越激烈,这促使了传统的管理模式向供应链管理模式的转变。供应链管理已经成为企业提高竞争力的重要手段。供应商与企业组织之间不再是建立在物
期刊
[摘要] 分析了制造业面临的挑战,通过把企业的计算机应用系统部署为基于开放、规范的技术基础之上的WEB服务,提高了完美订单率,实现了实时的制造仿生系统。  [关键词] WEB服务 完美订单 制造仿生系统    一、引言    制造企业正在努力使计算机应用系统发挥出应有的效益,如提高生产效率、改善供应链管理等。随着软件业向基于WEB的服务转移,制造业面临着新的挑战,即如何将它们的扩展企业融入一个实时
期刊
[摘要] 本文基于战略公司财务的动态视角,运用我国上市公司面板数据和FGLS方法,从实证上检验了竞争环境动态性与上市公司资本结构,以及资本结构影响因素之间的相互关系。本文的研究表明,资本结构作为企业的一项战略承诺,与所在产业的动态市场竞争环境具有密切关系,并且竞争环境动态性与资产抵押价值、企业规模、企业成长性和非债务税盾等资本结构影响因素的相互作用对资本结构的变化和选择具有较为显著的作用。  [关
期刊
城中村是中国20世纪90年代城市化发展过程中出现的中国二元体制下城乡间不同土地所有制、户籍保障、人力资源等特殊因素碰撞产生的另类社区。城中村坐落于具有商业升值价值的城市区域,村内聚集的大量外来流动人口,使其逐渐形成以物业出租、工商零售、餐饮及其他服务业为主的特色社区商业。将城中村定位于市场角色,培育开发特色社区商业,对于推进城中村城市化进程,实现其可持续发展有着重要意义。本文特以长沙市麓山村、高桥
期刊
[摘要] 本文阐述了在CRM中应用数据挖掘的必要性,给出了CRM的体系结构,介绍了应用SQLServer2005数据挖掘工具的流程,最后总结了目前存在的主要问题。  [关键词] CRM 数据挖掘 SQLServer2005    一、前言    中小企业要想在激烈的市场竞争中谋生存求发展,就要努力提升自己的核心竞争力,从以往的“以产品为中心”的管理模式转变为“以客户为中心”的管理模式,这就需要构建
期刊
[摘要] 目前的电子商务服务中,由于商品信息众多使得消费者难以快速获得自己需要的信息。如何解决这一面临的问题,本文从探究RSS技术出发,阐述了RSS的含义、原理与优势,着重讨论RSS技术在电子商务中个性化服务中所起的作用。  [关键词] RSS RSS个性化服务 电子商务    一、RSS是什么    亚马逊是全球最大的网上购物站点,所售商品种类达几十万种。如此庞大的商品海洋中使消费者难以找到他们
期刊