基于XML的Web数据挖掘集成应用研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:Gloria_SHU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 针对目前企业实施Web数据挖掘的关键问题,提出利用XML屏蔽Web数据源的异构性以及XML与Web挖掘技术在电子商务系统中集成应用的解决方案,并对用分类技术发现潜在客户群等应用进行了讨论。
  [关键词] XML Web数据挖掘 电子商务系统
  
  一、数据挖掘与XML
  数据挖掘就是从大量随机的实际应用数据中,通过数据抽取、转换、分析和其他模型化处理,提取隐含在其中的有用信息和知识的过程。Web数据挖掘过程可粗略地分为数据准备、数据挖掘、结果的解释评估三个阶段,其中每一个阶段又包含若干个子阶段(参见图1)。
  图1 数据挖掘过程的一般步骤
  XML(eXtensible Markup Language)是一种跨平台可扩展的数据描述语言,它是标准通用标记语言SGML的一个简化子集,但克服了SGML的复杂性,将SGML的丰富功能与HTML的易用性结合起来,具有较强的描述数据和管理数据的能力,并凭借其良好的可扩展性和自描述性、形式与内容分离、对多语种支持等特点,给跨平台跨地域异构数据的集成带来方便。XML的这种特性为处理电子商务系统中大量的异构数据提供了可行性。
  二、实施Web数据挖掘的关键问题及解决方法
  1.异构数据的转换
  电子商务系统服务器端的用户文件目前主要是XML、HTML和关系数据等数据类型。从数据处理角度来看,关系数据模型过于严谨,无法有效地表示半结构化和非结构化数据;HTML对文档的要求也过于完整,且不能定义数据的层次,没有提供编程接口解析它所携带的数据,无法真正实现各种应用程序、数据库及操作系统间的数据交互。XML与关系数据模型和HTML相比,可以表示更多样化的数据格式,能够使不同来源的结构化、非结构化数据很容易地进行合并。
  采用XML集成多个不同数据源的信息,只需要把来自不同数据源的信息先转成XML文档,然后再处理经过解析器解析的数据流即可。任何应用程序只需要知道两种格式,即本身的和XML的,就可以通过XML为中介实现与其他应用程序的信息交换。
  因此,在Web挖掘的数据预处理阶段,用XML作为中间数据模型来屏蔽Web数据源的异构性不仅是可行的,而且可以使异构数据源能有效地集成应用,从而较好地解决Web挖掘中的技术难题。
  2.XML数据的查询
  XML描述的Web数据所具有的半结构化特性对传统的数据管理方式提出了挑战,由于XML文档数据具有特殊的树型层次结构,使得已有的数据查询技术(如传统的基于关系数据库方式的信息查询、基于文本的信息检索)不能很好地应用于XML数据的查询处理。本文采用文献提出的基于结构特征编码模式的XML数据查询算法—MatchSearch,能够有效地对经过上述转换和数据抽取所得的半结构化数据进行多路径查询。
  MatchSearch算法是基于传统信息检索技术中的字符串匹配算法提出的,其重点是对查询语句的分支进行判断、处理。实际应用中借鉴MatchSearch算法的基本思想,采用三元编码模式,将XML文档中的每个数据成分(元素、属性、原子值)都用(name, path, branch)形式表示。其中,name表示数据成分的名称或值,path以压缩编码的形式表示从文档根节点到当前数据节点的父节点的路径,branch表示当前数据节点的子节点数。这种三元编码形式不仅可以表示数据的内容(由name表示),还可以有效地表示XML数据的结构(由path和 branch表示),因此可以将XML文档数据转换为等价的以三元编码模式表示的字符串形式。同理,基于路径的XML数据查询也可以表示成三元编码形式的字符串。这样,XML的数据查询问题就转化为三元编码形式的字符串匹配问题。
  此外,借鉴MatchSearch算法的基本思想,还可以利用三元编码模式设计一种双层的B+树索引结构,将路径索引和数值索引合为一体,能够进一步提高索引的查询速度。通过与有代表性的查询优化方法的对比实验,表明该方法能够有效地提高针对半结构化数据的多路径查询速度。
  三、面向电子商务XML文档的Web挖掘应用
  电子商务网站上的异构数据经过转换为XML格式处理后,就可选用相应的Web挖掘技术对数据集实施挖掘分析。
  1.基于XML的Web挖掘集成应用模型
  由于Web上的电子商务信息多而杂,并且大多是非结构化或半结构化的,这就使得Web挖掘对数据的预处理过程要比普通的数据挖掘更为复杂,工作难度也更大。为此,笔者提出了一个基于XML的Web数据挖掘集成应用模型(如图1所示)。
  图2基于XML的Web数据挖掘应用模型
  该模型给出了基于电子商务服务器端数据实施Web数据挖掘集成应用的基本思想和一般流程:將实现HTML文档、关系数据向XML格式转换的工具封装为XML转换器,将路径分析、分类技术等Web数据挖掘技术封装为Web数据挖掘器,并与处理XML的Java应用编程接口(Java API for XML processing)等模块集成,以中间件的形式植入电子商务系统解决实际应用问题。
  需要说明的是,目前Web数据挖掘的过程并非完全自动的,上述应用模型中有许多细节工作仍需要人工完成。
  2.利用分类技术发现潜在客户群体
  分类是一种数据分析形式,可以用来抽取描述重要数据集合的模型,一般用于预测数据对象的离散类别。在电子商务系统中应用分类技术,可以通过挖掘客户群体中某些共同的特性而将客户分成不同的类别,建立不同种类客户之间的特征分类模型,进而预测不同行为类别客户的分布特征。
  对一个电子商务网站来说,从众多的访问者中发现潜在客户群体非常关键。那么,如何通过Web挖掘来发现潜在客户群体呢?可以应用分类规则挖掘中的主要方法,如决策树分类技术,先对客户通过Web日志文件的处理和分类规则挖掘,识别出其各类的公共属性,然后对一个新的客户,依据分类规则进行预测,确定是否为潜在的客户。如果发现某些访问者为潜在客户,就可以对这类客户实施一定的策略,使他们尽快成为在册客户,从而使电子商务网站的订单数增多,效益增加。
  四、结束语
  研究表明,数据挖掘工作60%的时间用在数据准备上。这一方面说明数据挖掘技术对数据要求的严格,但同时也启示我们:如果能减少在数据准备阶段的工作量,也就意味着可以有效地减少整个数据挖掘过程的工作量。本文所提出的基于XML的Web数据预处理方法被实际应用证实是一种有效的方法。
  
  参考文献:
  [1]陆汝钤:人工智能[M].北京:科学出版社,2000.
  [2]胡侃夏绍玮:基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1)
  [3]秦杰:Web环境中半结构化数据存储与查询技术研究[D].国防科学技术大学研究生院,2005,9
  [4]Alvaro R. Pereira Jr, Ricardo Baeza-Yates. Applications of a web information mining model to data mining and information retrieval tasks. 16th International Workshop on Database and Expert Systems Applications (DEXA'05) pp. 1031-1035.
其他文献
[摘 要] 自2003年建设部出台的18号文件把经济适用房由“住房供应主体”改成“具有保障性质的政策性商品住房”开始,保障性住房被商品房所取代——尽管它带有“保障性质”,但毕竟落脚点在“商品住房”上,自此,拉开了我国房价上涨的大趋势。虽从2005年3月开始,政府为了打击炒房,平抑房屋价格,出台了一系列“政策组合拳”,但事与愿违,全国各地房价在一片“降”声中直线上升,时至2008年,各地房价在严厉的
期刊
[摘要] 近当代国际化经济背景下,中国中外交流中最引人关注的部分之一就是中洋文化交流。这里面包括与西洋英美法等国的交流,也包括与东洋日本的交流。在交流过程中,洋人带入中国的精神与物质文化总体上是比较先进的。因此,如何在这种国际化经济背景下吸收洋人先进的文化精华,如何保持本民族的民族特性,就成为近当代许多学人非常关心的问题。特别在城市建设方面更为我国政府所重视。本文希望通过对近当代城建,以及相关方面
期刊
[摘要] 供应商管理是ERP管理中的一个重要模块,本文首先介绍啤酒企业供应商管理的现状,其次介绍ERP环境中供应商管理的解决方案,最后介绍决策树和改进遗传算法在供应商评估决策中的应用。  [关键词] 啤酒企业 供应商管理 数据挖掘    啤酒企业一般采取大批采购,对采购原料的质量、提前期等有严格要求。许多啤酒企业重生产、轻采购,采购管理仅仅流于传统的比价管理,使企业成本居高不下。在激烈竞争的局面中
期刊
按照社会学的构想,宏观社会结构可以以微观社会互动过程为基础来建立。如果以此为分析框架去审视,我们可以发现,中国社会的脸面运作过程及其模式,与更大的系统——政府组织和企业组织系统有惊人的耦合性,他们存在有相同的结构特质。如果再进一步考察,我们会看到企业系统的活力状态与政府、企业结构模式有着极强的瓜葛。因此,探寻社会表象背后的深层结构,推动政府对企业活力的关照,是本文的基本考虑。  一、面子观中呈现出
期刊
[摘要] 客户关系管理已经成为了当今管理的热点。本文结合客户生命周期模型和数据挖掘的常用方法,探讨了数据挖掘在分析型客户关系管理中的应用。  [关键词] CRM 数据挖掘 客户生命周期    一、 引言  客户关系管理起源于20世纪80年代初提出的接触管理,即专门收集整理客户与公司联系的所有信息。美国研究机构Meta Group根据客户关系管理的内容及功能,将客户关系管理划分为三类:操作型、分析型
期刊
一、前言  数据挖掘(Data Mining,简称DM),简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本,一个普遍被采用的定义是“数据挖掘,又称为数据库知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。根据不同的标准,数据挖掘系统可以有不同的分类,其中根据
期刊
[摘要] 本文对我国四家维生素C出口企业的市场份额与价格之间的相关性进行了分析,结论是四家企业的维生素C出口市场份额均于其价格无关,显示维生素C企业竞争市场份额的措施应更多提高企业品牌价值、提高服务水平、获得更有价值的销售渠道、与国外大客户建立战略同盟关系等方面着手。  [关键词] 价格策略 维生素C    一、问题的提出  国际维生素C(简称VC)原料药市场目前已经形成了寡头垄断的市场结构。中国
期刊
[摘要] 我国C2C网站发展迅速,但由于盈利模式的局限,大部分网站仍处于“烧钱”经营的状态。本文通过对C2C网站现有盈利模式的分析,探讨了未来盈利模式的发展方向。  [关键词] C2C 盈利模式 免费    一个商业模式是否成功在于它能为企业带来多少利润。如今,B2B、B2C网站早已实现盈利,美国的Ebay在C2C市场上也开始盈利,而中国的C2C网站不但没有盈利,还要靠“烧钱”的方式维持经营。即使
期刊
[摘要] 重庆直辖以来,社会经济发展很快,但是现代物流业的发展还相对滞后,目前正在建设长江上游航运中心和西部地区物流枢纽,物流产业面临良好的发展前景。本文对重庆发展物流产业的优势、劣势、机遇与威胁进行了分析。  [关键词] 物流产业 SWOT 物流成本    SWOT分析法属于管理学的范畴,其涵义是在既定条件下通过对单位的优势、劣势及核心竞争力进行结构化的平衡系统比较分析,找出并发扬有利因素,规避
期刊
[摘要] 本文较详细地分析了湖州安泰物流中心发展中的问题,并且针对这些问题,结合企业现状,提出了解决思路和对策。  [关键词] 配送 第三方物流 仓储    随着物流观念不断深入人心,湖州地区的第三方物流企业得到了前所未有的发展,并得到了切切实实的效益。但是,企业在发展过程中也同样遇到不少困境。本文结合湖州安泰物流中心的第三方物流的运作情况,分析湖州地区第三方物流实施过程中产生的经济效益,以及出现
期刊