基于XML进行Web数据挖掘浅析

来源 :商场现代化 | 被引量 : 0次 | 上传用户:leux
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] Web数据挖掘已经成为当前广泛研究的课题。目前许多网站都是用HTML构建的,给Web数据挖掘带来了诸多困难,XML的出现为Web数据挖掘带来了便利。本文介绍了Web数据挖掘的概念和遇到的困难,分析了XML在Web数据挖掘中的应用。
  [关键词] Web数据挖掘 XML 半结构化数据
  
  数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。Web上有大量的数据信息,怎样对这些数据进行挖掘以实现复杂的应用,已成为现今数据库技术的研究热点。
  一、Web数据挖掘的概念
  Web数据挖掘是一项涉及Web技术、数据库、机器学习、数据挖掘、统计学、计算机语言学等多学科的综合技术,不同的研究人员从不同的角度出发,对Web数据挖掘有着不同的理解。研究搜索引擎的人着重于Web页面的文本数据的分析;而设计Web站点结构的人,则着重于用户对Web站点访问模式的研究。具体来说,Web数据挖掘是指通过一定的算法,从大量的、不完全的随机的Web数据中抽取模式、提取知识的过程,其实质是一种从数据库中学习的方法,可以弥补数据检索的不足。
  二、Web数据挖掘面临的困难
  从数据准备阶段来看,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多,主要体现在以下两个方面:
  1.异构数据库环境。从数据库研究的角度出发,Web网站上的信息也可以看作一个大而复杂的数据库。Web上的每个站点就是一个数据源,每个数据源都是异构的,而且每个站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。要利用这些数据进行数据挖掘,首先,要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决web上的数据查询问题,因为如果不能有效地得到所需的数据,对这些数据进行分析、集成,处理就无从谈起。
  2.半结构化的数据结构。Web上的数据与传统的数据库中的不同,传统的数据库都有一定的数据模型,可以根据模型来描述特定的数据。而Web上的数据非常复杂,没有特定的模型,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,使其成为一种非完全结构化的数据,这也被称为半结构化数据。半结构化是Web上数据的最大特点 。
  三、XML在Web数据挖掘中的应用
  XML是一种标记语言,具有简单、开放、高效可扩充和标准国际化等特点。它可被看作一种半结构化的数据模型,能很容易地与关系数据库中的属性一一对应,实施精确的查询与模型抽取,方便地实现数据挖掘。XML在Web数据挖掘中的应用分析如下:
  1.实现异构数据集成管理。XML是一种半结构化的数据模型。用户可以很容易地将其和关系数据库中的属性一一对应,实施精确地记录、查询与模型抽取。因此,XML解决了每一个站点之间信息和组织都不一样的问题,使不同站点上的非结构性数据可以很容易地规范到一个既定数据库上。软件代理商可以在中间层的服务器上,对从后端数据库和其他应用获取的数据进行集成。
  2.将负载处理从web服务器转到web客户端。一般来说,数据处理阶段是数据挖掘的重要环节,Web挖掘也不例外,大量的数据预处理工作都需要服务器端完成。按照传统的C/S模式来开发,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理员还需事先调查各种不同的用户需求开发出相应的程序。假如用户的需求繁杂而多变,将所有业务逻辑集中在服务器端显然不合适。因为服务器端编程人员可能来不及满足众多的应用需求,也无法适应需求的变化,双方都很被动。而XML将数据处理的主动权交给了客户,服务器端所要做的工作只是尽可能准确、完善地将数据封装成XML文件后发送给客户。客户端根据自己的需求选择和制作不同的应用程序以解析所接收的数据,并对数据进行编辑和处理。XML自带的解释执行系统在接收到数据的同时也理解了数据的逻辑结构和含义,因而使分布式计算成为可能。
  3.促进数据交换。在Web数据挖掘过程中,用户经常需要在不同结构的数据源之间进行业务数据传递。基于XML的数据是自我描述的,数据不需要内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理。XML格式的数据发送给客户后,客户可以用应用软件方便地解析数据,以及对数据进行编辑和再处理,使用者可以用不同的方法处理数据,而不仅仅是显示它,XML文档对象模式(DOM)允许用脚本或其他编程语言处理Web数据,数据计算不需要回到服务器就能进行。总之,在这类应用中XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是XML并没有定义文件中具体数据规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使得XML成为一种程序能自动理解的规范。
  4.根据用户需求裁减信息内容。传统HTML主要描述数据的外观,而XML可以描述数据的类别。由于数据显示与内容分开,XML允许为数据指定不同显示方式,使数据更合理地表现出来。XML还可以对所取得的信息进行裁减和编辑以适应不同的用户需求:它采用简单灵活的格式分离使用者观察数据的界面,将同样的数据以不同浏览形式提供给不同用户。与其他数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使XML成为一种程序能自动理解的规范。
  四、结束语
  由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。随着XML作为在Web上交换数据的一种标准方式广泛普及,Web数据挖掘将会变得高效与轻松。
  参考文献:
  [1]Han Jiawei, Micheline K:数据挖掘概念与技术[M].北京:机械工业出版社,2001,290~294
  [2]王泽彬 金 飞 李 夏 王 冠:Web数据挖掘技术及实现. 哈尔滨工业大学学报,2005.Vol.37.No.10
其他文献
[摘要] 目前,国外有许多资源型城市把旅游业作为接续产业并取得了成功的范例。本文以平顶山市为研究对象,客观地评价了旅游业对平顶山市经济发展的作用与影响,同时指出平顶山市作为资源型城市的旅游资源开发原则和方向,并指出平顶山市旅游业发展的主要路径。  [关键词] 资源型城市 旅游业 平顶山    旅游者的旅游过程也是货币转移的过程,旅游接待地可以通过旅游者的消费取得经济收入,有资料显示,旅游业的乘数效
期刊
[摘要] 本文通过查阅文献和实地调查研究的方法对锦天化实施创新战略进行了认真分析,锦天化通过实施创新战略,提升企业核心竞争力,寻求企业可持续发展的过程,它不仅是一个企业寻求环境和资源和谐的过程,还是一个企业战略跨越和管理、技术变革的过程,更是一个通过文化创新,提升学习力创新的过程。笔者希望通过对锦天化创新战略的分析,以小见大,对我国处于传统行业的地方国有企业开展创新活动,提升企业核心竞争力有所借鉴
期刊
[摘要] 由于我国的金融市场缺少足够的信用数据,造成基于企业评级的风险度量方法,例如Credit Metrics和Credit Risk+在我国不具备现实应用的基础。同时,反观我国的股票市场,股权分置改革的巨大影响,在全流通的环境中,公司的投资价值凸现,上市公司的市场价格也逐渐回归到公司的内在价值。本文选用KMV模型,就是通过充分利用资本市场的信息,对样本上市公司的信用进行量化,从而得出上市公司股
期刊
[摘要] 绿色奥运要求举办城市能够达到自然环境和生态环境与人类社会协调发展。绿色逆向物流就是旨在通过废弃物的回收循环利用来充分节约和利用资源与能源,以保护生态环境,提高经济效益,促进可持续发展。所以,从社会效益和经济效益最大化角度,绿色逆向物流是2008北京奥运理性的选择。  [关键词] 绿色奥运 绿色逆向物流 效益    一、引言  据北京交通大学经济管理学院物流研究所专家估计,整个奥运会期间,
期刊
[摘要] 中国的房地产价格是否存在泡沫是近年来大家持续关注的一个话题,而用哪些指标来评价一国的房地产行业价格是否存在泡沫是很多学者关心的课题。在本文中,笔者综合前人的研究成果,利用改进的CAPM模型,设计出了判断房地产行业价格泡沫的模型,希望能抛砖引玉,引起相关研究者的重视。  [关键词] 房地产 房地产泡沫 CAPM模型    近年来,中国房地产价格持续攀升,特别是以上海为中心的长江中下游地区、
期刊
[摘要] 广西隆林德峨乡是极富代表性的欠发达的少数民族聚居之乡。如何使少数民族聚居区农业依靠自身优势,走上可持续发展之路,一直是人们关心的问题。笔者通过对德峨乡农业特色产业发展情况的调查,总结分析 “烤烟、黑山羊、花椒”等多项特色种养产业的发展经验与存在问题,提出“抓好龙头、建好基地、提高科技、强化品牌”的发展对策,着力培育农业产业特色化、产业化、现代化,进一步推助少数民族区域经济的发展。  [关
期刊
[摘要] 本文通过对我国CNKI引文数据库收录的烟草专业研究者在1997年~2006年被引情况进行统计分析,计算出每位学者的H 指数、R指数,以及传统计量指标,以此来评价我国农业烟草专业科研人员的个人绩效。同时还对H指数为4以上的75位著者的H指数与R指数、传统计量指标之间的相关关系进行了研究。  [关键词] H指数;R指数;传统计量指标;人才评价    科学计量学凭借其客观的数学方法和数量工具,
期刊
[摘要] 3C框架一个理论创新,针对我国企业当前的制造成本控制的现状结合3C框架理论,本文提出了利用3C框架理论,完善企业外部环境控制及完善企业内部制造成本控制的一些思路。  [关键词] 3C框架 制造成本控制    2006年3月3日,在“全面控制与风险管理高层论坛”上,中天恒会计师事务所推出了一种全新的“中国式全面控制框架”(即Chinese Complete Control,简称3C框架),
期刊
[摘 要] 通过对IPTV设计方案研究,提出了在病毒特征下直播静态画面的处理的设计思想,编码器采用多画面编码技术,服务器通过预播发技术来提高带宽利用率的设计理念。  [关键词] 多画面编码 预播发技术    IPTV即交互式网络电视,是一种集宽带有线电视网,互联网、多媒体、通讯等多种技术于一体,向家庭用户提供包括数字电视在内的多种交互式服务的崭新技术。这种新技术对目前的网络带宽提出更高的要求,因此
期刊
[摘要] 本文首先从日益频繁的国际工程交流竞争的实际形势出发论述了在工程管理专业教学中开展FIDIC施工合同条件双语教学的必要性,剖析了目前开展FIDIC双语教学的难点和实际问题,并针对这些问题,结合作者的教学实践探讨了该门课的有效的教学方法和改进措施,力求培养出具有综合国际竞争力的工程管理专业人才。  [关键词] 双语教学 FIDIC施工合同条件 教学方法    一、工程管理专业开展双语教学的机
期刊