基于电子商务网站的WEB内容挖掘

来源 :商场现代化 | 被引量 : 0次 | 上传用户:programmelove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 随着网络技术的迅速发展,电子商务行业正处以一个高速发展的时期,各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了Web内容挖掘在电子商务网站中的应用以及如何获得数据源。
  [关键词] 电子商务网站 Web内容挖掘 数据源
  
  一、引言
  对于电子商务网站来说,Internet上储存了大量的文档、图像、声音等非结构化的数据及信息,并且用户群体也显示出多样性,也就是说每个浏览网站的人,他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万,那么如何从这些数据中找到有用的信息,帮助电子商务的经营者和研究者从海量的Web数据中得到真正有价值的信息,以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
  二、爬虫和Web内容挖掘
  1.Web挖掘的典型分类
  在目前的研究中, Web数据挖掘分为:Web内容挖掘(Web content mining)、Web使用(访问信息)挖掘(Web usage mining)、Web结构挖掘(Web structure mining)三种典型的类型。
  (1)Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前,大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性,很少涉及到如何从网站上进行数据的采集以及分析。
  (2)Web结构挖掘主要是对Web文档的结构进行挖掘,通过一定的算法来发现给定的Web文档之间的链接情况,从而得到比较重要的页面,以向浏览网站的用户提供权威页面。
  (3)Web使用(访问信息)挖掘主要是对用户访问Web时在服务器方留下的访问记录,也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
  2.Web挖掘的数据源
  在Web数据挖掘中存在几种代表性的数据源:
  (1)服务器日志数据。个人浏览Web服务器时,在服务器那方就会产生3种类型的日志文件:Server logs,Error logs和Cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
  (2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
  (3)Web页面。目前的Web页面大多满足HTML标准。HTML页面中包含文本和多媒体信息,例如图片、图像、语言等,因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
  (4)Web页面超链接关系。Web页面之间的超链接关系是一种重要的资源,网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
  (5)其他数据。除了上述几种重要的数据源外,还有一些其他方面的数据,比如用户注册信息等一系列信息。
  当然,在实际的Web数据挖掘中这些数据源并不是孤立使用的,而是几种数据源的综合使用和分析,例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。
  3.爬虫和Web内容挖掘
  由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我们可以利用爬虫(Crawler)的工作原理,来作为我们进行Web内容挖掘的一种信息获取和分析的工具,得到我们需要的数据源。
  (1)爬虫的工作原理。爬虫(Crawler)是一个用来分解Web中超文本结构的工具。一个商业网站的Web页面是通过超链接的关系存在的,就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
  (2)数据的获得。我们就可以利用上述爬虫的工作原理,从我们需要的信息起始页开始进行爬取数据,得到与之有关的大多数Web页面上的信息。
  (3)数据的分析。在对链接页面进行搜索的过程中,经常需要判断信息的属性或分析信息的价值,因为Web页面上存储了浩瀚的数据,比如一些广告信息,而有的数据并不是我们需要的。在此,我们可以利用基于正则表达式(regular expression)的词法分析技术对采集到的Html代码进行语法分析,提取其中有效信息,例如出售的商品分类、规格、價格、数量、运送方式、运费、出售人、曾经购买过的用户等。
  (4)数据的保存。为了进行最终的挖掘工作,我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具,如SQL Server2005等。
  (5)进行挖掘。利用数据挖掘技术获取有效的信息,对相关问题模式进行验证。
  三、结束语
  电子商务网站,无论是B/C模式还是C/C的,在网站页面上都保存了大量用户在交易过程中产生的信息,例如商品的规格、价格、展示、售后服务以及运输方式等等,还包括卖家的个人信息、信用情况,根据平台的不同还有相应的支付方式、法律条款等等。那么,利用爬虫技术,我们可以开发出一个获得数据源的有效工具来进行Web内容挖掘。
  当然,在现实研究当中,Web内容挖掘是和Web结构挖掘及Web访问信息挖掘结合在一起使用的,它们相互补充,共同来挖掘出有用的信息。
  
  参考文献:
  [1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报,2004.3:p.21~26
  [2]吴修琴:基于Web使用挖掘的个性化服务推荐:河北科技图苑,2007.3
其他文献
改革开放以来,中国经济经历了20多年的快速发展,成为世界经济中一个重要角色。按照官方汇率核算,中国是世界第四大经济强国。加入世界贸易组织以来,中国的对外贸易额以每年30%的速度在递增,在世界贸易中的份额从1980年的不到1%增长到2005年的6.7%,成为世界第三大贸易国。中国经济实力的不断增强和贸易地位的不断上升,对世界其他的经济实体必然产生影响。因此,有人危言耸听,散布“中国威胁论”。因此本文
期刊
[摘要] 长期以来,传统贸易理论推崇自由贸易政策,因为其推进了各国福利的提高。但是在实践中一些国家却出台了贸易保护政策。关于贸易保护政策相关的理论很多,在此,本文对贸易保护理论构建一种国际政治经济学的理论分析框架,并以中国加入WTO后遭受反倾销为例,提出中国应对的策略。  [关键词] 贸易保护 理论分析框架 国际政治经济学    20世纪70年代中期以来,西方发达国家新贸易保护主义日益兴起,对二战
期刊
[摘要] 贸易投资一体化理论的形成,使人们认识到了国际直接投资与国际贸易之间的关联性,即两者既存在互补性,又具有相互替代性。中国已经在这一方面进行了有益的实践,但是还需要进一步拓展和完善。   [关键词] 贸易投资一体化 国际直接投资 国际贸易    一、遭遇反倾销是中国对外贸易发展的一个重要障碍  我国当前对外贸易面临的主要问题之一,就是出口商品屡屡遭到国外反倾销调查。自1979年欧共体对我国出
期刊
[摘要] 农村剩余劳动力向非农产业转移,是我国目前和今后相当长一段时期内经济和社会发展的一个重要问题。本文以湖南省贫困地区农村劳动力的基本情况入手,探讨了湖南省贫困地区农村劳动力转移的总体状况和特征,并提出促进湖南省贫困地区农村劳动力转移的有效途径。  [关键词] 农村剩余劳动力 转移特征 贫困地区    改革开放以来,湖南农村剩余劳动力转移工作取得了较大的成绩,对本省的经济发展做出了重要的贡献.
期刊
[摘要] 在传统统一账号管理无法保证用户账号的有效管理、安全授权和认证,因此,各大企业一直坚持不懈地对如何实现真正的统一账号管理进行研究。本文结合实际需求,将统一账号管理与AAA技术有机结合起来,让企业在账号管理过程中,实现真正的统一账号管理、授权和认证。本文对AAA框架设计和价值进行了论述。  [关键词] 账号 授权 认证 AAA    一、引言  随着企业各种应用系统的迅速发展,各种应用系统和
期刊
[摘要] 基于J2EE平台、JSP技术实现虚拟商场的设计。采用Browser/Server(B/S)模式与Oracle数据库服务器以及JDBC数据库技术、java程序片实现电子商务网络销售。系统结合面向对象设计语言的优点和虚拟商场日益庞大的需求,以java语言为核心,并基于一系列开放和流行标准、技术及协议,对电子商务网络化进行全新的诠释。  [关键词] 虚拟商场 java 电子商务    随着In
期刊
一、ERP理念在企业中的应用  ERP的理念是现代企业经营管理的基本和本质的原理和方法。对ERP理念的认识程度直接影响管理人员管理实践的效率和效果。有人提出,ERP的核心理念是“计划和平衡”,我十分赞同这个观点。大致有五个层次:企业经营计划、销售和运作计划、主生产计划、物料需求计划和能力计划,前两个是决策计划,后三个是执行层计划。这五个层次的计划分别属于长期、中期和近期规划,计划的平衡也处在不同的
期刊
[摘要] 随着企业的发展和社会信息化水平的提高,ERP作为现代信息技术应用于企业经营与管理,越来越受到企业的认可与推崇,应用ERP提升企业综合竞争力已经成为企业的共识。体验式营销在ERP的推广中起着越来越重要的作用。  [关键词] 体验式营销 ERP    体验营销是一种全新的营销方式。它是一种高层次的营销,因为它不仅涉及产品的销售过程,还涉及产品应用的全生命周期管理。根据Bernd H.Schm
期刊
[摘要] E-mail营销作为网络营销的一种方式,虽然其重要性近年来不断增加,但在营销上的应用却一直没有很大的起色。本文从E-mail营销的要素入手,分析了E-mail营销所面临的问题,并针对这些问题提出了具体的解决办法。  [关键词] E-mail营销 垃圾邮件 网络营销    据中国互联网络信息中心(CNNIC)发布的第20次“中国互联网络发展状况统计报告”,截至2007年6月30日,中国网民
期刊
[摘要] 面对房地产行业日趋激烈的市场竞争,以消费者为导向的4C营销理念逐步引入房地产市场营销中。本文结合吉安市房地产的营销环境,从消费者需求、成本、方便与沟通四个角度对吉安市住宅房地产销售进行了分析并提出营销建议。  [关键词] 4C 房地产 市场营销    一、4C营销理论  进入21世纪以来,中国的房地产业飞速发展,房地产总体规模不断扩大。房地产企业为了在日趋激烈的市场竞争中获胜,不断将新的
期刊