Web数据挖掘技术在电子商务系统中的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:koutoumonnokoro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 随着互联网的迅猛发展,web上的信息飞速增长,如何从大量的数据集合中抽取有用的信息,找到有效的数据管理和使用的平台,合理的组织网站结构,成为人们越来越关心的课题。Web数据挖掘是从Web上挖掘有用知识为目标,利用web数据挖掘技术分析其在电子商务系统中的应用,能够发现潜在的客户信息,改进站点的结构,提供优质的个性化服务,从而提高企业的竞争力。
  关键词: 数据挖掘;电子商务系统;web内容挖掘;web结构挖掘;web应用挖掘
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110185-01
  
  随着Internet的迅猛发展,互联网上的各种信息飞速增长,如何从这个庞大的数据集合中抽取有用的信息,找到提供数据管理和使用的平台;如何合理的组织网站建设,更加人性化的给用户提供服务;如何从海量的网络信息中迅速的找到用户最为关心的信息,成为人们越来越关心的课题。
  数据挖掘技术为解决这个问题带来了希望,通过数据挖掘技术在Web上的应用,企业可以分析和预测顾客的将来行为,改进站点结构,可以大大降低运营成本,Web数据挖掘技术就是在此背景下产生的。Web数据挖掘是以从Web上挖掘有用知识为目标,它将传统的数据挖掘技术与Web结合起来,利用数据挖掘技术从Web页面和Web日志中发现有效的、新颖的、潜在的有用的的信息,它是一门交叉性学科、涉及数据挖掘、人工智能、机器学习、数据仓库、统计学、信息学、计算机网络技术、计算机语言学等多个领域。
  Web数据挖掘可分为3类:Web内容挖掘(web content mining)、web结构挖掘(web structure mining)、web应用挖掘(web usage mining)[1]。
  1)Web内容挖掘是提取文字、图片或者其他组成网页内容成分的信息和知识。搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需要的内容。
  Web内容挖掘有两种策略:页面文本内容挖掘;对搜索引擎的查询结果进行进一步的处理,得到更为精确和有价值的信息。
  2)Web结构挖掘主要是用来提取网络的拓扑信息,即网页之间的链接信息。
  通过对Web站点的超链接结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。超链接信息包含了人类潜在的注释,大量的Web超链接信息提供了关于Web页面内容相关性、质量和结构方面的信息,它有助于自动推断出页面的权威性。当一个页面包含指向另一个页面的超链接时,可以认为是对另一个页面的认可。把对一个页面的不同注解收集起来,就可以用来反映该页面的重要性。
  3)Web应用挖掘是用来提取关于客户如何运用浏览器浏览和使用页面链接的信息。从web的访问记录中抽取感兴趣的模式。例如顾客访问了哪些页面,在每个页面上停留的时间,下一步又单击哪个页面等等。这些信息可以在WWW的每个服务器上访问日志中得到,Web日志记录了关于用户访问和交互的信息,体现了用户使用Web资源的行为特点,以及隐藏在行为背后的更深层次的动因和规律,发现用户的需要和兴趣,从而改进站点的结构,为用户提供个性化的服务。因此,Web日志的挖掘作为Web挖掘的一个重要组成部分,有其独特的理论和实践意义。
  随着电子商务的兴起和迅猛发展,人们掀起了网上购物的热潮,所以Web挖掘的一个重要应用方向就是电子商务系统。而与电子商务关系最为密切的是Web访问信息挖掘。例如有多少人访问了该页面,哪些页面最受欢迎等。因此,销售商主要的挑战,是需要尽可能多地了解顾客爱好及价值取向,得到可靠的市场反馈信息,才能保证其在电子商务时代的竞争力。下面是web挖掘在电子商务中的具体应用。
  1 延长用户停留时间,提供优质服务
  对于电子商务系统来说,客户与销售商之间的空间距离己经不存在了。那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了达到这一目的,就应该了解客户的浏览行为,客户的兴趣及需求,动态地调整Web页面,更好的建立站点结构。
  通过服务器与用户交互过程,收集用户的信息,Web服务器根据这些信息对用户请求的页面信息而进行筛选,观察用户跳转页面的规律,总结用户习惯的链接模式。例如a.html链接了b.html,b.html链接了c.html,若发现大多数用户在b.html页面上停留时间很短,就跳转到了c.html,可以改进链接结构,去掉b.html,由a.html直接链接到c.html,其目的就是提高用户的满意度和提供优质的服务。
  2 挖掘潜在客户
  通过对日志数据项进行统计,筛选出用户频繁访问的页面、单位时间的访问数、访问数量随时间分布图等。对日志中的客户访问信息进行挖掘,利用分类技术在日志中找到潜在的客户。首先对Web访问者进行分类,对于一个新的访问者,通过在Web上的分类发现,识别出这个客户与老客户的一些公共的描述,从而对这个新客户进行正确的分类,然后从它的分类判断这个新客户是有分析价值的客户群,还是属于无分析价值客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和服务之间的关联。
  3 优化网站设计
  通过挖掘用户的频繁访问路径和用户聚类,改善站点中页面之间的链接关系,适应用户访问习惯,同时为用户提供个性化的服务。
  对Web日志分析,判断出在一个Web站点中最频繁的访问路径,可以考虑把最新的、最时尚、最重要的商品信息放在这些页面中,改进页面和网站结构的设计,增强对客户的吸引力,提高销售量。所以web设计者不再完全依靠专家的定性指导来设计网站,而是根据访问者的信息来修改和设计网站结构、外观。
  总之,通过对web数据进行挖掘,改进电子商务系统的设计,给客户推出个性化页面,把用户最感兴趣的信息放在首页,可以更能吸引客户。企业可以根据用户的需求,增强此类产品的设计和生产,同时给网站带来更多的效益。随着web挖掘技术的不断深入和成熟,将会对社会经济发展带来巨大的推动作用。
  
  
  
  
  参考文献:
  [1]陈文伟,数据仓库与数据挖掘教程,清华大学出版社,2006,8.
  [2]朱明,数据挖掘,合肥:中国科学技术大学出版社,2002(5):5.
  [3]苏新宁,数据挖掘理论与技术,北京:科学技术文献出版社2003(6):
  228.
其他文献
摘要: H3CS5800万兆路由交换机是杭州华三通信技术有限公司自主研发的旗舰核心路由交换机,该产品基于自适应安全网络技术理念研发,能提供大容量、高性能的L2/L3交换服务,并融合硬件IPv6、网络安全等智能特性。以湖南佳乐实业有限公司为湖南某财政局组建以太网为实例,详细介绍H3CS5800万兆路由交换机在局域网组网中的应用,并对H3CS5800交换机优越技术性能作较充分说明。  关键词: H3C
摘要: 对IPv6技术作介绍,并对IPv6目前的状况及实现障碍做分析,最后提出利用隧道技术实现IPV4向IPV6的过渡的方案。  关键词: 校园网;IPV6  中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110176-02    0 引言  随着互联网的迅速发展,整个网络呈现了快速增长的趋势,各种应用正如火如荼的进行着。但在这一片繁华背后却隐藏着重大的危机,其中32位
期刊
摘要: 探讨和分析基于Browser_Server模式的物资管理信息系统产生的和开发的时代背景及必要性,阐述物资管理信息系统设计的总体构想、功能模块和关键性技术,提出加强物资信息化管理工作所应当采取的手段和方法。企业在使用该系统后,可以提高企业的屋子管理水平,使企业的数据信息不仅可以及时反馈而且还可以达到高度共享。主要介绍基于Browser_Server模式的物资管理信息系统的设计与实现。  关键
摘要: 在飞行试验过程中,遥测任务越来越多,采集的数据都要以PCM流的形式传送给地面监控站,这对作为重要环节的PCM格栅编程提出较高的要求。对PCM格栅编程的思路和设计方法等进行详细介绍,并给出新旧格栅编程算法的效果对比,为相关的设计开发提供很好的借鉴。  关键词: 格栅编程;长周;短周  中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110172-01    在飞行试
加强实践性教学是中等职业学校教育的重要内容。在深化经济体制改革,建立社会主义市场经济体制的新环境下,探索出有效的实践性教学的新形式,是中等职业学校培养过硬专业人才
摘要: 《机械制图》课程的难点是学生识图、绘图能力的培养;在复杂的立体转化为平面和平面转化为立体的空间认识、思维活动中,大多数的学生都存在不适应的情况。识读三视图是识读零件图和装配图的关键。为使学生掌握识读三视图这一内容,重点是要坚持以学生为本的教学理念,注重调动学生学习的兴趣、学好课程的信心,从直观教学、掌握读图方法、强化练习等几个方面分析引导学生识读三视图。  关键词: 激发学习兴趣;直观教学
浦东教育发展研究院新建工程——教研大楼位于上海浦东新区浦东大道以南、民生路以东、栖山路以北。由一个长133.2m、宽98.6m、层高4.2~5.4 Pudong Institute of Education D
摘要: ASP是开发网站应用的快速工具,但是有些网站开发人员只看到ASP的快速开发能力,却忽视ASP的安全问题。从分析ASP网站数据库信息的安全性出发,阐述ASP的安全问题,并给出解决方法或者建议。  关键词: ASP;安全  中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110183-01    ASP是一种服务器端脚本编写环境是一种服务器端脚本编写环境,可以用来创建
期刊
摘要: 对医院数据中心的建设进行探讨,指出数据信息在医院使用现状,领悟数据中心对实现医院数据的共享,提高维护人员工作效率,改善主机系统使用环境作用,指出数据中心建设的几个重点:机房系统建设;主机系统建设;网络系统建设、网络管理软件;数据库的设计等使用。  关键词: 数据中心;建设;数据库;网络  中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110182-01    1
摘要: 随着社会、经济的飞速发展,人们对信息的需求量越来越大,计算机也越来越广泛的被应用于人们的工作与生活中,成为不可或缺的一部分。但由于网络系统自身的不完善,计算机极易遭到互联网上病毒与黑客及恶意程序的攻击,使得计算机信息的安全传输面临很大的威胁。  关键词: 信息;计算机;网络;安全;威胁;防护  中图分类号:TP3文献标识码:A文章编号:1671-7597(2010)0110184-01