Web挖掘技术与电子商务

来源 :商场现代化 | 被引量 : 0次 | 上传用户:lwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。
  [关键词] 数据挖掘Web挖掘电子商务
  随着互联网的高速发展和企业、个人上网的普及,电子商务成为未来商务交易的主要运营方式,电子商务是运用互联网技术进行的经济贸易活动,是一种基于因特网、以交易双方为主体、以银行电子支付和结算为手段、以客户数据为依托的全新商务模式,其内容包括广告、交易、支付、服务等活动。商家与其合作伙伴、客户通过计算机网络进行商务活动,可以拉近企业与客户的距离,缩短生产时间,降低流通成本,提高产品质量,为生产者和消费者提供更多的信息,扩大客户的选择,提高企业的竞争力。
  利用网络提供优质的产品及优良的服务是今天电子商务发展的核心与重点。如何在电子商务活动中通过技术手段来与顾客沟通,了解其消费偏好、习惯以及潜在的消费意识,进而设计出满足不同客户群体的个性化网站,以完成对每一个客户的优质个性化服务,这些已成为电子商务活动中迫切需要解决的问题。利用Web数据挖掘技术就可以有效解决以上问题。
  
  一、Web挖掘的概念
  
  数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是从人工智能和机器学习中发展起来的,它是一种新的信息处理技术,其主要特点是对大量的数据进行抽取、转换、分析和其他模型化处理,从中提取人们感兴趣的知识。数据挖掘的对象可以是数据库,也可以是文件系统,还可以是其他任何组织在一起的数据集合。
  Web挖掘是从数据挖掘发展而来,Web挖掘是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息,它是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。
  虽然Web挖掘由数据挖掘发展而来,但其与数据挖掘相比有独特之处。传统数据挖掘的对象局限于数据库中的结构化数据;而Web挖掘的对象是大量、异质、分布的Web文档,其是半结构化或无结构的且缺乏机器可理解的语义。
  
  二、Web挖掘的类型
  
  根据控制对象的不同,Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘、Web数据的使用挖掘。
  
  1.Web内容挖掘
  Web内容挖掘,就是从Web页面上的文件内容及其描述信息中获取潜在的、有价值的知识和模式的过程。Web内容挖掘包括文本文件的挖掘和多媒体文档的挖掘。
  
  2.Web结构挖掘
  Web结构挖掘,是从Internet的整体结构和网页的相互链接以及网页的本身结构中发现知识的过程。
  在整个Web空间,有用的知识不仅包含在页面的内容之中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可以用来改进搜索路径等。
  
  3.Web数据的使用挖掘
  Web数据的使用挖掘,是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。
  尽管WWW作为一个信息资源是繁杂、异质和庞大的,然而从局部来说,在每一个提供信息资源的服务器上都有一个结构化的记录集,即Web访问日志。每当有获取资源的请求到来时,Web服务器都将记录和积累这些关于用户交互作用的数据。分析不同的Web站点的Web访问日志可以帮助人们理解用户的行为和Web的结构,从而提高网站的实际工作效率。
  
  三、Web数据的使用挖掘过程
  
  Web使用挖掘遵循传统数据挖掘的研究思路,挖掘过程分为4个阶段:源数据收集、数据预处理、模式发现和模式分析。
  
  1.源数据收集
  在Web数据的使用挖掘中,数据最直接的来源是Web服务器上的Web日志文件。Web日志文件非常明确地记录了访问者的浏览行为,Web日志文件包括服务器log、代理log和客户端log。
  
  2.数据预处理
  收集到的实际数据一般都具有不完全性、冗余性和模糊性,要想更有效地挖掘出知识,就必须对收集到的数据进行预处理,为挖掘提供准确、简洁的数据。数据的预处理包括数据清理、用户识别、用户会话识别、访问路径补充和事务识别等步骤。
  (1)数据清洗的主要任务就是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的范围。
  (2)在数据净化后就必须确定单一的用户,用户识别的目的就是对用户唯一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。
  (3)在用户识别的基础上须进行用户会话识别,其目的是将每个用户的访问信息划分成若干个独立的会话进程,最简单的方法是采用超时估计的办法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开始了一次新的会话。
  (4)因为页面缓存技术和代理服务器的广泛使用,使得Web服务器访问日志中所记录的可能不是用户完整的访问路径。不完整的访问日志不能准确地反映用户的访问模式,所以有必要进行访问路径的补充。进行路径补充可以利用Web站点的拓扑结构,对页面进行分析。
  (5)事务识别是建立在用户会话识别的基础上的,其目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其适合于数据挖掘需求的分析。
  
  3.模式发现
  模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。其方法有分类分析、关联规则发现、序列模式发现、聚类分析和依赖性建模等。
  (1)分类分析是将数据项按照预先定义的类别进行划分,其主要是将用户配置文件归属到既定的用户类别。得到分类后,就可以针对这一类客户的特点展开商务活动,提供有针对性的个性化的信息服务。
  (2)关联规则发现主要用于从Web日志数据库的访问项中挖掘出相关的规则,通过分析用户访问网页间的潜在联系而发现隐藏在数据间的相互关系。
  (3)序列模式发现就是要挖掘出交易集之间有时间序列关系的模式。在网站服务器日志里,用户的访问是一个间断的时间序列,这些序列反映出用户的行为,序列模式挖掘侧重点在于分析数据间的前后或因果关系。序列模式发现便于电子商务的组织者预测客户的访问模式,有助于开展有针对性的服务。
  (4)聚类分析是把具有相似特征的用户或数据项归类,用于把有相似特性的用户、数据项集合到一起,它可以帮助进行市场决策。
  (5)依赖性建模的目标是开发出一种能表达出Web领域中各种变量之间显著依赖性的模型。其不仅能为分析用户行为提供理论框架,还具有预测Web资源消耗的潜力。
  
  4.模式分析
  模式分析主要是为了从模式发现算法找到的模式集合中筛选出有兴趣的模式。经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。
  
  四、Web挖掘在电子商务中的应用
  
  在日益激烈的电子商务买方市场竞争中,任何与消费者行为有关的信息对商家来说都是非常宝贵的。电子商务一个主要的挑战是需要了解到顾客尽可能多的爱好、价值取向,以保證在电子商务时代的竞争力。Web挖掘可用来发现不明显的、有潜在价值的数据,其可以提高电子商务系统对消费者的服务能力和竞争优势。
  
  1.个性化服务
  所谓个性化服务,就是在用户浏览Web站点时,尽可能的迎合每个用户的浏览兴趣并且不断调整白己来适应用户浏览兴趣的变化,使得每个用户都有是该Web站点唯一用户的感觉。
  而要做到个性化服务,首先得获取和收集服务对象的信息,掌握顾客的消费习惯、爱好、消费心理等,然后才能有针对性地提供个性化服务。要取得消费者的消费行为模式,传统营销方式是十分困难的,但利用Web挖掘技术则可以做到。
  
  2.完善电子商务网站设计
  网站的吸引力取决于其内容和组织结构的合理设计,Web挖掘可以提供用户行为的详细情况,从而能够为网站设计者改进网站的设计提供决策依据。
  
  3.广告效益评价
  利用Web挖掘对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并可组合设计出最佳的商品宣传组合方案,帮助商品在销售过程找到合适的出路。
  
  4.辅助选择产品类型
  电子商务网站通过长期运营,通过对由Web挖掘所存入数据仓库的大量消费行为模式的分析、组合和推理,得出市场对产品种类的需求和销售情况,进而由产品的生产决策者根据相关因素决定生产产品的种类和数量。因而Web挖掘可以用于辅助企业开发出适销对路的产品。
其他文献
[摘要] 本文针对电子商务应用的特殊要求,提出了Linux集群技术在电子商务Web服务器应用领域的一种解决方案。它成本较低,性能较单机服务器优越,能更好地为电子商务提供Web服务。  [关键词] 电子商务Web服务Linux集群  随着Internet 和电子商务的飞速发展,人们对電子商务网络服务器访问需求急剧增加,网络服务器的负载越来越大,采用服务器集群[1]已成为提高网络服务性能的有效途径。W
期刊
[摘要] 随着中国经济的快速增长,我国外商直接投资(FDI)的数量也日益增长。本文阐述了我国外商直接投资的现状,说明目前所存在的问题,并提出了我国FDI的一些建议。  [关键词] FDI贸易影响对策    一、外商投资的现状及特点    吸收外商直接投资,是中国对外开放和加快市场经济建设的重要组成部分,也是中国顺应经济全球化趋势、主动参与国际分工的重要举措。28年来,随着改革开放的不断深化,中国的
期刊
有资料显示,中国现在已成为仅次于日本和澳大利亚的亚太第三大并购市场。2006年上半年,中国并购交易额达到410亿美元,同比增长71%。其中,外资对中国的并购投资金额达到128亿美元,创下历史新高。外资以并购形式大规模进入我国,特别是对一些行业领先企业的并购,前提当然是不能伤害国家的经济安全和必须遵守我国的法律,与此同时,也要顾及其他市场参与者对反垄断和产业安全的关切。  本文分四部分来阐述凯雷并购
期刊
[摘要] 激励需以满足需要为前提,只有了解和把握员工需要,才能最终实现激励的目的。笔者通过对武汉H物流公司实地访谈调研,归纳出目前物流企业员工需要中渴求程度最高的五方面:即希望增加薪酬、提高社会地位、强化沟通交流、加强员工自身素质建设及提供更多职业发展空间,并得出相关结论。  [关键词] 物流企业员工需要  我国传统“官本位”观念和长期计划经济体制下形成的企业管理“行政化”作风导致企业内部等级层次
期刊
[摘要] 本文通过分析新公司法英译本的一处小小的误译,提出了法律翻译要严格忠于原文,为了做到这一点,不仅要有扎实的英语基本功,还要研究和了解法律原文,具备一定的法律知识,才能够准确地反映法律法规的原貌。  [关键词] 法律翻译法律语言新公司法介词严谨法律精神立法愿意  改革开放以来,我国的对外交流越来越频繁,法制环境也得到了极大的改善。法律是一个社会的游戏规则,法律文化是反映一个社会文明程度最重要
期刊
[摘要] 出口贸易系统受到国内国际诸多因素的影响,是一个演变的非线性复杂系统,而神经网络因其强大的非线性映射能力,特别适合于解决非线性的预测决策问题。本文从重庆市外贸出口的实际背景出发,采用三层BP神经网络进行实证预测,预测结果表明本文建立的模型具有较高的预测精度,可以作为相关部门制定出口贸易发展目标的参考依据。  [关键词] BP神经网络出口预测非线性预测    一、引言    出口贸易受到一国
期刊
[摘要] VaR是目前国际上金融风险管理的主流方法之一,本文在简要介绍的VaR概念及计算方法后,在经典的Markowitz均值-方差模型的基础上,加入了VaR约束,研究了基于VaR约束的证券组合投资决策优化模型及其有效边界,并就此VaR模型的数学特性进行了分析。  [关键词] 证券组合风险价值均值-方差模型有效边界    一、引言     由Markowitz在1952年发表的一篇题为“证券组合的
期刊
[摘 要] 电子商务安全问题的核心和关键是电子交易的安全性,本文就目前电子交易中经常使用的安全策略——SSL协议的功能、具体应用和存在的问题进行了论述和分析。  [关键词] 电子商务SSL浏览器客户端服务器数字证书CA    一、 引言    随着计算机网络技术的飞速发展,电子商务开始蓬勃发展起来,通过Internet进行的网上购物、在线交易、网上银行等业务虽然为人们的工作和生活提供了极大的便利。
期刊
[摘要] 超市与消费者基于自助寄存柜发生的关系不同于一般民事无偿借用关系,超市对寄存物损失是否有过错,不应当限于其故意与重大过失。消费者几乎不可能举证证明寄存物的损失,导致此类消费者群体性败诉。令超市对寄存物损失承担举证责任,是公平的、可行的。  [关键词] 无偿借用关系举证责任分配利益平衡  生活与司法实践表明,消费者因寄存物丢失向经营者索赔的,常常因消费者不能证明失物为何物而失败。面对消费者群
期刊
[摘要] 2008年北京奥运会渐行渐近,志愿者招募工作已于2006年8月拉开序幕。北京市委书记刘淇说“志愿者的微笑是北京最好的名片”。奥运志愿者如何成为北京“最好的名片”,向来自世界各地的朋友展示中国改革开放之后,朝气蓬勃、日新月异的新形象和新面貌,很大程度上取决于他们的跨文化交流能力。2008奥运志愿者代表的是北京是中国,面对的是众多来自不同国家不同民族有着不同文化习俗的群体或个体,肩负着宣传北
期刊